AI BENCHMARK
Az IrokoBench benchmark teljesítménybeli hiányosságokat mutat az afrikai nyelveknél az AI-modellekben
A Masakhane projekt pánafrikai kutatócsoportja kifejlesztette az IrokoBench-et, „egy emberi fordítással készült benchmarkot, amely különböző földrajzi régiók nyelveit tartalmazza: hatot Nyugat-Afrikából, ötöt Kelet-Afrikából, négyet Dél-Afrikából és egyet Közép-Afrikából, mindet eltérő mértékű erőforráshiány (low-resourcedness) mellett.”
A tesztek során a szerzők azt találták, hogy „a védett, zárt modellek általában felülmúlják a nyílt modelleket az afrikai nyelvek esetében. Azonban még ezek a védett modellek is jelentős teljesítménycsökkenést mutatnak az afrikai nyelvekre vonatkozó korlátozott egynyelvű webes adatok miatt”. A legjobban teljesítő modell a GPT-4o, amely 48,1-es átlagpontszámot ért el. Összehasonlításképpen a nyíltan hozzáférhető modellek, mint a LLaMa 3 (25,5) vagy még a kifejezetten többnyelvű Aya-101 (27,9) is gyengébben teljesítettek.
- 16 nyelvet fed le, köztük: eve, hausza, igbo, twi, volof, joruba, amhara, kinyarvanda, luganda, szuahéli, oromo, sona, xhosza, zulu, szotó és lingala.
- AfriMGSM: Az általános iskolai matematikai kérdések helyes megválaszolásának képességét teszteli.
- AfriMMLU: Feleletválasztós kérdéseket tartalmaz földrajz, jog, globális tények és mikrogazdaságtan témakörben.
- AfriXNLI: Mondatosztályozást tesztel olyan területeken, mint a szépirodalom, utazás, kormányzat és levelezés.
- A zárt forráskódú modellek jelentősen felülmúlják az olyan open-source alternatívákat, mint a LLaMa 3 és az Aya-101.
Miért fontos?
Napjainkban a modelleket elsősorban angol (és kisebb mértékben kínai) nyelven tesztelik. Ez azt jelenti, hogy csak részleges képünk van a teljesítményükről, és a más nyelveken nyújtott képességeik megismerése az alapul szolgáló adatkészletben való nyelvi reprezentáció arányában skálázódik. Gyanúm szerint bizonyos, ritka reprezentációval rendelkező nyelvek (például low-resource nyelvek) esetében súlyos teljesítménycsökkenés következhet be – az IrokoBench-hez hasonló tesztek pedig segítenek kideríteni, hogy valóban ez-e a helyzet.