AI EVALUATION
A TextQuests klasszikus szöveges kalandjátékokkal értékeli az LLM-ek érvelési képességét
A Center for AI Safety kutatói létrehozták a TextQuests-et, egy olyan LLM-értékelő rendszert, amely azt teszteli, mennyire jól tudnak az AI-rendszerek szöveges kalandjátékokkal játszani. A TextQuests 25 Infocom interaktív fikciós játékot tartalmaz, köztük olyan klasszikusokat, mint a Zork, a Witness, a Sherlock és a Galaxis útikalauz stopposoknak (The Hitchhiker's Guide to the Galaxy). A szöveges kalandjátékok szórakoztató és hasznos módszert kínálnak az AI-rendszerek mérésére, mivel a sikeres teljesítéshez a rendszereknek érvelniük kell saját cselekedeteik és megfigyeléseik egyre növekvő története alapján, tapasztalat útján kell tanulniuk (próba-szerencse módszerrel) ugyanazon a munkameneten belül, valamint többlépcsős terveket kell kidolgozniuk és végrehajtaniuk külső eszközök segítsége nélkül. „A sikerhez ezekben a játékokban az ágensnek megértést kell kiépítenie egy hosszú játékmenet során, elemeznie kell saját kudarcait, és folyamatos fejlesztéseket kell végeznie a felfedezés során. Ez lehetővé teszi az LLM-ek közvetlenebb és pontosabb értékelését, mint egy AI-ágens rendszer érvelési gerincét” – írják a kutatók. Emellett a szöveges kalandjátékok futtatása rendkívül olcsó és hatékony.
Az értékeléshez kapcsolódó ranglista két versenypályát tartalmaz:
- Nincs segítség: Az ágenseknek az alapoktól kell teljesíteniük a játékokat; itt egyetlen ágens sem fejezett be egyetlen játékot sem, bár néhányan (például a GPT-5, a Claude Opus 4.1 és a Grok 4) jelentős előrehaladást értek el a játékok elején.
- Segítségek: Itt az ágensek megkapják a hivatalos „InvisiClues” tippfüzeteket közvetlenül a kontextusablakukba. Fontos, hogy ezek a tippek nem adnak közvetlen végigjátszást, hanem többszintű, gyakran kriptikus utalásokból állnak, amelyeket az ágensnek meg kell tanulnia értelmezni és alkalmazni az aktuális játékállapotra. Ebben a módban ugyanazok az ágensek rendre 5 (GPT-5), 4 (Claude Opus 4.1) és 3 (Grok 4) játékot tudtak teljesíteni, és az összes ágens sokkal nagyobb haladást ért el a többi játékban is.
Amikor hiba történik: A modellek leginkább azért buknak el, mert összezavarodnak azzal kapcsolatban, hogy mit tettek már meg korábban – ez azt sugallja, hogy a modell kontextushosszának és a memória hatékony használatának javulásával a teljesítmény is nőni fog.
- 25 klasszikus Infocom játékot tartalmaz, mint a Zork és a Galaxis útikalauz stopposoknak.
- Elvárja a modellektől a hosszú távú előzmények kezelését és többlépcsős tervek végrehajtását.
- Két pályát kínál: egyet segítség nélkül, egyet pedig kriptikus „InvisiClues” tippekkel.
- A „Segítségek” pályán a legjobb teljesítményt a GPT-5 és a Claude Opus 4.1 nyújtotta.
- A hibapontokat elsősorban a korábbi lépésekkel és a memóriával kapcsolatos zavarokként azonosították.
Miért fontos?
Alapvetően nehéz mérni, mennyire teljesítenek jól az AI-rendszerek a tágabb, nyitott végű érvelésben, mivel a legtöbb értékelés (eval) arra kényszerít, hogy egy adott válaszlistából válaszd ki a helyeset. A szöveges kalandjátékok ezzel szemben más jellegűek... Ezért az olyan értékelések, mint a TextQuests, egyfajta kvalitatív, humán-központú megfelelői a kvantitatív, kódolás-központú méréseknek, mint amilyen a SWE-Bench. ---