AI BENCHMARK
Új, 1 millió dolláros díjat indítottak a nehéz ARC-AGI benchmark legyőzésére
2019-ben Francois Chollet bemutatta az ARC-AGI-t (Absztrakciós és Következtetési Korpusz a Mesterséges Általános Intelligenciához). Az ARC egy megtévesztően egyszerű teszt, amelyet az emberek könnyen megoldanak, de az AI-rendszerek küszködnek vele – a feladat pixelminták elemzése, majd két bemeneti-kimeneti példa alapján egy új bemeneti sorozat kimenetének megjóslása.
Amikor az ARC 2019-ben megjelent, a legjobban teljesítő rendszerek 20%-ot értek el, azóta ez az érték 34%-ra emelkedett. Ez azt jelenti, hogy az ARC meglepően nehéz benchmark, amely még a mai nagy teljesítményű generatív modelleket is kihívás elé állítja. (Összehasonlításképpen: az ARC készítői szerint az emberek 85%-ot érnek el ezen a teszten). Most Chollet és Mike Knoop 1 000 000 dolláros díjat tűzött ki a mutató javításának ösztönzésére.
- 500 000 dolláros fődíj minden olyan rendszernek, amely 85% feletti pontszámot ér el a ranglistán.
- Minden beküldött megoldást open-source formában közzé kell tenni az új ötletek felfedezésének és terjesztésének felgyorsítása érdekében.
- 25 000 dollárt kap az a csapat, amely a 2024-es ranglista élén végez.
- A benchmark a komplex minták „few-shot” (néhány példa alapján történő) megértését és teljesen új vizuális feladatokra való általánosítását (generalizáció) követeli meg.
Miért fontos?
A rendhagyó problémák kreatív megoldásokat igényelhetnek: Az ARC némileg ellentmond annak a narratívának, miszerint a generatív modellek egyszerű skálázása végül az embernél jobb általános teljesítményhez vezet. Hogyan máshogy magyarázhatnánk a hatalmas különbséget más, állítólag nehéz benchmarkok (például GPQA, MMLU) és az ARC között elért haladás között? A verseny az év nagy részében tart, és mindenképpen beszámolunk majd az eredményekről. ---