Megjelent az ARC-AGI-3 új interaktív érvelési benchmarkja az AI generalizációjának tesztelésére

ARC PRIZE

Megjelent az ARC-AGI-3 új interaktív érvelési benchmarkja az AI generalizációjának tesztelésére

2025. július 21. · MI Történik? · 1 perc olvasás

Az ARC Prize közzétette az ARC-AGI-3 előzetesét, amely egy új interaktív érvelési benchmark az AI ágensek ismeretlen környezetben való általánosítási képességének tesztelésére – a korai eredmények szerint a vezető AI modellek még mindig nem érik el az emberi szintet.

A benchmark három eredeti játékot tartalmaz, amelyeket a világmodell-építés és a hosszú távú tervezés értékelésére terveztek, minimális visszacsatolás mellett.
Az ágensek nem kapnak utasításokat, kizárólag próbálkozás és hibázás útján kell tanulniuk, utánozva azt, ahogyan az emberek alkalmazkodnak az új kihívásokhoz.
A korai eredmények azt mutatják, hogy a vezető modellek, mint az OpenAI o3 és a Grok 4, még a játékok alapszintjeinek teljesítésével is küzdenek, amelyek az emberek számára meglehetősen egyszerűek.
Az ARC Prize egy nyilvános versenyt is hirdet, amelyre várják a közösség jelentkezését olyan ágensek építésére, amelyek a legtöbb szintet képesek teljesíteni – és valóban próbára teszik az AGI érvelés állapotát.

Miért fontos?

Az új, újdonságközpontú interaktív benchmark túlmutat a specializált készségalapú tesztelésen, és a kutatást a valódi mesterséges általános intelligencia felé tereli, ahol az AI rendszerek képesek pontosan általánosítani és alkalmazkodni az új, ismeretlen környezetekhez – hasonlóan hozzánk, emberekhez.

Eredeti forrás megtekintése (angol) →