Az IrokoBench benchmark teljesítménybeli hiányosságokat mutat az afrikai nyelveknél az AI-modellekben

2024. június 10. · MI Történik? · 1 perc olvasás

A Masakhane projekt pánafrikai kutatócsoportja kifejlesztette az IrokoBench-et, „egy emberi fordítással készült benchmarkot, amely különböző földrajzi régiók nyelveit tartalmazza: hatot Nyugat-Afrikából, ötöt Kelet-Afrikából, négyet Dél-Afrikából és egyet Közép-Afrikából, mindet eltérő mértékű erőforráshiány (low-resourcedness) mellett.”

A tesztek során a szerzők azt találták, hogy „a védett, zárt modellek általában felülmúlják a nyílt modelleket az afrikai nyelvek esetében. Azonban még ezek a védett modellek is jelentős teljesítménycsökkenést mutatnak az afrikai nyelvekre vonatkozó korlátozott egynyelvű webes adatok miatt”. A legjobban teljesítő modell a GPT-4o, amely 48,1-es átlagpontszámot ért el. Összehasonlításképpen a nyíltan hozzáférhető modellek, mint a LLaMa 3 (25,5) vagy még a kifejezetten többnyelvű Aya-101 (27,9) is gyengébben teljesítettek.

16 nyelvet fed le, köztük: eve, hausza, igbo, twi, volof, joruba, amhara, kinyarvanda, luganda, szuahéli, oromo, sona, xhosza, zulu, szotó és lingala.
AfriMGSM: Az általános iskolai matematikai kérdések helyes megválaszolásának képességét teszteli.
AfriMMLU: Feleletválasztós kérdéseket tartalmaz földrajz, jog, globális tények és mikrogazdaságtan témakörben.
AfriXNLI: Mondatosztályozást tesztel olyan területeken, mint a szépirodalom, utazás, kormányzat és levelezés.
A zárt forráskódú modellek jelentősen felülmúlják az olyan open-source alternatívákat, mint a LLaMa 3 és az Aya-101.

Miért fontos?

Napjainkban a modelleket elsősorban angol (és kisebb mértékben kínai) nyelven tesztelik. Ez azt jelenti, hogy csak részleges képünk van a teljesítményükről, és a más nyelveken nyújtott képességeik megismerése az alapul szolgáló adatkészletben való nyelvi reprezentáció arányában skálázódik. Gyanúm szerint bizonyos, ritka reprezentációval rendelkező nyelvek (például low-resource nyelvek) esetében súlyos teljesítménycsökkenés következhet be – az IrokoBench-hez hasonló tesztek pedig segítenek kideríteni, hogy valóban ez-e a helyzet.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Új, 1 millió dolláros díjat indítottak a nehéz ARC-AGI benchmark legyőzésére

2024. június 17.

Az Anthropic kutatója négy kulcsfontosságú promptstratégiát vázolt fel a Claude Fable 5-höz

5 órája

Az Apple bemutatta a Siri AI funkcióit és az iOS 27-et a WWDC nyitóelőadásán

8 órája

Tudj meg többet

ChatGPT használata a munkában: Gyakorlati útmutató irodai dolgozóknak

AI hanggenerálás és zeneszerzés: Útmutató a Suno, Udio és ElevenLabs használatához