AI TELJESÍTMÉNYMÉRŐK
Az ARC új AGI tesztje minden élvonalbeli AI-t zavarba hoz
François Chollet ARC Prize Alapítványa épp most adta ki az ARC-AGI-3-at, interaktív érvelési benchmarkjának legújabb verzióját, ahol az emberek az első próbálkozásra 100%-ban meg tudják oldani a feladatokat, de az AI modellek küszködnek, a legjobb rendszerek sem érik el az 1%-ot.
- A laboratóriumok milliókat költöttek modellek képzésére a teszt korábbi verzióin, egy éven belül 3%-ról körülbelül 50%-ra növelve az ARC-AGI-2 pontszámait.
- Az ügynökök játék-szerű forgatókönyvekkel találkoznak nulla utasítással, és a nulláról kell felfedezniük a szabályokat, célokat megfogalmazniuk és stratégiákat tervezniük.
- A Google Gemini Pro érte el a legmagasabb pontszámot az élvonalbeli modellek között, mindössze 0,37%-ot, ezt követte a GPT 5.4 High (0,26%), az Opus 4.6 (0,25%) és a Grok-4.20 (0%).
- Egy 1 millió dolláros díj áll a kihívás mögött, és Mike Knoop társalapító szerint az élvonalbeli laborok sokkal nagyobb figyelmet fordítanak a V3-ra, mint a korábbi verziókra.
Miért fontos?
Mindig megrázó látni, hogy a top modellek pontszámai 1% alá esnek egy új ARC-AGI kiadásnál, de ha a régebbi tesztek bármilyen mutatók, még meglepőbb lesz, hogy milyen gyorsan másznak fel a létrán az élvonalbeli laborok. Az, hogy ez valódi érvelést tükröz-e, vagy csak drágább nyers erővel való próbálkozást, pontosan az, amit Chollet a V3-mal meg akart tudni.