Az ARC új AGI tesztje minden élvonalbeli AI-t zavarba hoz

2026. március 26. · MI Történik? · 1 perc olvasás

François Chollet ARC Prize Alapítványa épp most adta ki az ARC-AGI-3-at, interaktív érvelési benchmarkjának legújabb verzióját, ahol az emberek az első próbálkozásra 100%-ban meg tudják oldani a feladatokat, de az AI modellek küszködnek, a legjobb rendszerek sem érik el az 1%-ot.

A laboratóriumok milliókat költöttek modellek képzésére a teszt korábbi verzióin, egy éven belül 3%-ról körülbelül 50%-ra növelve az ARC-AGI-2 pontszámait.
Az ügynökök játék-szerű forgatókönyvekkel találkoznak nulla utasítással, és a nulláról kell felfedezniük a szabályokat, célokat megfogalmazniuk és stratégiákat tervezniük.
A Google Gemini Pro érte el a legmagasabb pontszámot az élvonalbeli modellek között, mindössze 0,37%-ot, ezt követte a GPT 5.4 High (0,26%), az Opus 4.6 (0,25%) és a Grok-4.20 (0%).
Egy 1 millió dolláros díj áll a kihívás mögött, és Mike Knoop társalapító szerint az élvonalbeli laborok sokkal nagyobb figyelmet fordítanak a V3-ra, mint a korábbi verziókra.

Miért fontos?

Mindig megrázó látni, hogy a top modellek pontszámai 1% alá esnek egy új ARC-AGI kiadásnál, de ha a régebbi tesztek bármilyen mutatók, még meglepőbb lesz, hogy milyen gyorsan másznak fel a létrán az élvonalbeli laborok. Az, hogy ez valódi érvelést tükröz-e, vagy csak drágább nyers erővel való próbálkozást, pontosan az, amit Chollet a V3-mal meg akart tudni.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Bejelentették a FLUX 3-at multimodális videó- és hangpredikcióval

1 órája

A Cursor lokális, 7 dolláros „Start” csomagot indít Indiában

3 órája

Ultra-realisztikus luxustermék-reklámképek generálása

11 órája

Tudj meg többet

AI a mindennapi önfejlesztésben: Személyre szabott mentor zsebméretben

AI a mindennapi pénzügyekben: a családi költségvetés automatizálása