Az MIT kiadta a GSM8K-Platinum-ot a népszerű matematikai benchmarkok zajának javítására

2025. március 10. · MI Történik? · 1 perc olvasás

Az MIT kutatói kiadták a GSM8K-Platinum-ot, a széles körben használt GSM8K matematikai benchmark finomított és hibátlanított változatát. A projekt a meglévő benchmarkok „zajhatárával” (noise limit) foglalkozik, ahol a teljesítmény a kétértelmű vagy helytelen címkék, és nem a modell korlátai miatt stagnál. A kutatók a legfejlettebb LLM-eket futtatták az eredeti adatkészleten, és az eltérések elemzésével 219 problémás kérdést azonosítottak. Az új verzió pontosabb mérést ad a matematikai kompetenciáról, és jelentős teljesítménybeli különbségeket mutat ki olyan modellek között, amelyek az eredeti, zajosabb benchmarkon azonosnak tűntek.

219 kérdést jelöltek meg felülvizsgálatra a modellek közötti eltérések alapján.
110 zajos kérdést eltávolítottak, 99 másikat pedig hitelesítettek.
10 hibásan címkézett választ javítottak az adatkészletben.
Kimutatták, hogy a Claude 3.7 Sonnet 8-szor kevesebb hibát vét a tisztított készleten, mint a Llama 405B.
Segít a kutatóknak különbséget tenni a modell korlátai és a benchmark zaja között.

Miért fontos?

Hol tartunk most? Ez egy nagyon fontos kérdés, és a helyes válasz megtalálása mindig nehéz munka. A GSM8K-Platinum-hoz hasonló projektek dicséretesek, bár az AI kutatói közösségben még mindig kissé „alacsony státuszúnak” számítanak. Remélem, hogy a GSM8K-Platinum kiemelésével én is hozzáteszek egy kicsit ahhoz, hogy az ilyen munkák „magas státuszúvá” váljanak – hiszen hihetetlenül értékesek!

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Mondo Robotics bemutatta Benit, az autonóm kamerarobotot tartalomgyártók számára

3 órája

A Booster Robotics humanoidja falat is átütő rúgással debütált a futballbemutatón

5 órája

Az Aceii A1 mobil teniszrobot dinamikus AI-edzést kínál

6 órája