Vezető AI modelleket teszteltek detektívként az Ace Attorney játékban

2025. április 16. · MI Történik? · 1 perc olvasás

A UC San Diego Hao AI Lab kutatói nemrég tesztelték a vezető AI modellek képességeit a Phoenix Wright: Ace Attorney című népszerű videojátékban, ahol a játékosoknak bűnügyi helyszíneket kell kivizsgálniuk és ügyeket kell megoldaniuk.

A csapat megbízta a csúcsmodelleket, köztük a GPT-4.1-et, hogy játsszanak Phoenix szerepében, akinek az ellentmondásokat kell azonosítania az ügyben a tanúvallomások és a bizonyítékok összevetésével.
A teszt során az OpenAI o1 és a Gemini 2.5 Pro teljesített a legjobban 26, illetve 20 helyes bizonyítékkal, elérve a 4. szintet, bár az ügyet egyikük sem oldotta meg teljesen.
Az összes többi modell nehézségekbe ütközött, és még 10 helyes bizonyítékot sem tudtak bemutatni a bírónak.
Meglepő módon az új GPT-4.1 alulteljesített, és a hónapokkal ezelőtti Claude 3.5 Sonnet szintjét hozta, mindössze 6 helyes bizonyíték-azonosítással.

Miért fontos?

Az olyan játékok, mint az Ace Attorney, az AI képességek széles skáláját tesztelik, a vizuális megértéstől (bizonyítékok felismerése) a hosszú kontextusú érvelésen át (kereszthivatkozások) a döntéshozatalig (mikor mit mutassunk be). Érdekes lesz látni, hogyan fejlődnek a modellek az interaktív döntéshozatal összetettebb kihívásainak kezelésében.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Perplexity és a Harvard tanulmánya feltérképezi az összetett AI ágens alapú munka felé való eltolódást

3 napja

Az MIT tanulmánya azonosítja a legfőbb AI-kockázatokat és a felelős intézményeket

4 napja

Tanulmány: Az AI tutorok felülmúlják a jogi kart

2026. június 4.