MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az IrokoBench benchmark teljesítménybeli hiányosságokat mutat az afrikai nyelveknél az AI-modellekben

A Masakhane projekt pánafrikai kutatócsoportja kifejlesztette az IrokoBench-et, „egy emberi fordítással készült benchmarkot, amely különböző földrajzi régiók nyelveit tartalmazza: hatot Nyugat-Afrikából, ötöt Kelet-Afrikából, négyet Dél-Afrikából és egyet Közép-Afrikából, mindet eltérő mértékű erőforráshiány (low-resourcedness) mellett.” A tesztek során a szerzők azt találták, hogy „a védett, zárt modellek általában felülmúlják a nyílt modelleket az afrikai nyelvek esetében. Azonban még ezek a védett modellek is jelentős teljesítménycsökkenést mutatnak az afrikai nyelvekre vonatkozó korlátozott egynyelvű webes adatok miatt”. A legjobban teljesítő modell a GPT-4o, amely 48,1-es átlagpontszámot ért el. Összehasonlításképpen a nyíltan hozzáférhető modellek, mint a LLaMa 3 (25,5) vagy még a kifejezetten többnyelvű Aya-101 (27,9) is gyengébben teljesítettek.
Miért fontos?

Napjainkban a modelleket elsősorban angol (és kisebb mértékben kínai) nyelven tesztelik. Ez azt jelenti, hogy csak részleges képünk van a teljesítményükről, és a más nyelveken nyújtott képességeik megismerése az alapul szolgáló adatkészletben való nyelvi reprezentáció arányában skálázódik. Gyanúm szerint bizonyos, ritka reprezentációval rendelkező nyelvek (például low-resource nyelvek) esetében súlyos teljesítménycsökkenés következhet be – az IrokoBench-hez hasonló tesztek pedig segítenek kideríteni, hogy valóban ez-e a helyzet.

Eredeti forrás megtekintése (angol) →