ARC PRIZE
Megjelent az ARC-AGI-3 új interaktív érvelési benchmarkja az AI generalizációjának tesztelésére
Az ARC Prize közzétette az ARC-AGI-3 előzetesét, amely egy új interaktív érvelési benchmark az AI ágensek ismeretlen környezetben való általánosítási képességének tesztelésére – a korai eredmények szerint a vezető AI modellek még mindig nem érik el az emberi szintet.
- A benchmark három eredeti játékot tartalmaz, amelyeket a világmodell-építés és a hosszú távú tervezés értékelésére terveztek, minimális visszacsatolás mellett.
- Az ágensek nem kapnak utasításokat, kizárólag próbálkozás és hibázás útján kell tanulniuk, utánozva azt, ahogyan az emberek alkalmazkodnak az új kihívásokhoz.
- A korai eredmények azt mutatják, hogy a vezető modellek, mint az OpenAI o3 és a Grok 4, még a játékok alapszintjeinek teljesítésével is küzdenek, amelyek az emberek számára meglehetősen egyszerűek.
- Az ARC Prize egy nyilvános versenyt is hirdet, amelyre várják a közösség jelentkezését olyan ágensek építésére, amelyek a legtöbb szintet képesek teljesíteni – és valóban próbára teszik az AGI érvelés állapotát.
Miért fontos?
Az új, újdonságközpontú interaktív benchmark túlmutat a specializált készségalapú tesztelésen, és a kutatást a valódi mesterséges általános intelligencia felé tereli, ahol az AI rendszerek képesek pontosan általánosítani és alkalmazkodni az új, ismeretlen környezetekhez – hasonlóan hozzánk, emberekhez.