AI RESEARCH
Vezető AI modelleket teszteltek detektívként az Ace Attorney játékban
A UC San Diego Hao AI Lab kutatói nemrég tesztelték a vezető AI modellek képességeit a Phoenix Wright: Ace Attorney című népszerű videojátékban, ahol a játékosoknak bűnügyi helyszíneket kell kivizsgálniuk és ügyeket kell megoldaniuk.
- A csapat megbízta a csúcsmodelleket, köztük a GPT-4.1-et, hogy játsszanak Phoenix szerepében, akinek az ellentmondásokat kell azonosítania az ügyben a tanúvallomások és a bizonyítékok összevetésével.
- A teszt során az OpenAI o1 és a Gemini 2.5 Pro teljesített a legjobban 26, illetve 20 helyes bizonyítékkal, elérve a 4. szintet, bár az ügyet egyikük sem oldotta meg teljesen.
- Az összes többi modell nehézségekbe ütközött, és még 10 helyes bizonyítékot sem tudtak bemutatni a bírónak.
- Meglepő módon az új GPT-4.1 alulteljesített, és a hónapokkal ezelőtti Claude 3.5 Sonnet szintjét hozta, mindössze 6 helyes bizonyíték-azonosítással.
Miért fontos?
Az olyan játékok, mint az Ace Attorney, az AI képességek széles skáláját tesztelik, a vizuális megértéstől (bizonyítékok felismerése) a hosszú kontextusú érvelésen át (kereszthivatkozások) a döntéshozatalig (mikor mit mutassunk be). Érdekes lesz látni, hogyan fejlődnek a modellek az interaktív döntéshozatal összetettebb kihívásainak kezelésében.