Az MIT kiadta a GSM8K-Platinum-ot a népszerű matematikai benchmarkok zajának javítására
Az MIT kutatói kiadták a GSM8K-Platinum-ot, a széles körben használt GSM8K matematikai benchmark finomított és hibátlanított változatát. A projekt a meglévő benchmarkok „zajhatárával” (noise limit) foglalkozik, ahol a teljesítmény a kétértelmű vagy helytelen címkék, és nem a modell korlátai miatt stagnál. A kutatók a legfejlettebb LLM-eket futtatták az eredeti adatkészleten, és az eltérések elemzésével 219 problémás kérdést azonosítottak. Az új verzió pontosabb mérést ad a matematikai kompetenciáról, és jelentős teljesítménybeli különbségeket mutat ki olyan modellek között, amelyek az eredeti, zajosabb benchmarkon azonosnak tűntek.
- 219 kérdést jelöltek meg felülvizsgálatra a modellek közötti eltérések alapján.
- 110 zajos kérdést eltávolítottak, 99 másikat pedig hitelesítettek.
- 10 hibásan címkézett választ javítottak az adatkészletben.
- Kimutatták, hogy a Claude 3.7 Sonnet 8-szor kevesebb hibát vét a tisztított készleten, mint a Llama 405B.
- Segít a kutatóknak különbséget tenni a modell korlátai és a benchmark zaja között.
Miért fontos?
Hol tartunk most? Ez egy nagyon fontos kérdés, és a helyes válasz megtalálása mindig nehéz munka. A GSM8K-Platinum-hoz hasonló projektek dicséretesek, bár az AI kutatói közösségben még mindig kissé „alacsony státuszúnak” számítanak. Remélem, hogy a GSM8K-Platinum kiemelésével én is hozzáteszek egy kicsit ahhoz, hogy az ilyen munkák „magas státuszúvá” váljanak – hiszen hihetetlenül értékesek!