MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az MIT kiadta a GSM8K-Platinum-ot a népszerű matematikai benchmarkok zajának javítására

Az MIT kutatói kiadták a GSM8K-Platinum-ot, a széles körben használt GSM8K matematikai benchmark finomított és hibátlanított változatát. A projekt a meglévő benchmarkok „zajhatárával” (noise limit) foglalkozik, ahol a teljesítmény a kétértelmű vagy helytelen címkék, és nem a modell korlátai miatt stagnál. A kutatók a legfejlettebb LLM-eket futtatták az eredeti adatkészleten, és az eltérések elemzésével 219 problémás kérdést azonosítottak. Az új verzió pontosabb mérést ad a matematikai kompetenciáról, és jelentős teljesítménybeli különbségeket mutat ki olyan modellek között, amelyek az eredeti, zajosabb benchmarkon azonosnak tűntek.
Miért fontos?

Hol tartunk most? Ez egy nagyon fontos kérdés, és a helyes válasz megtalálása mindig nehéz munka. A GSM8K-Platinum-hoz hasonló projektek dicséretesek, bár az AI kutatói közösségben még mindig kissé „alacsony státuszúnak” számítanak. Remélem, hogy a GSM8K-Platinum kiemelésével én is hozzáteszek egy kicsit ahhoz, hogy az ilyen munkák „magas státuszúvá” váljanak – hiszen hihetetlenül értékesek!

Eredeti forrás megtekintése (angol) →