A BALROG benchmark komplex szöveges kalandjátékokon keresztül értékeli a vizuális nyelvi modelleket
A University College London, az IDEAS NCBR, a University of Oxford, a New York University és az Anthropic kutatói létrehozták a BALROG-ot, egy vizuális nyelvi modellekhez szánt benchmarkot, amely szöveges kalandjátékok segítségével teszteli az intelligenciát. A BALROG alapgondolata az, hogy „a nyelvi és vizuális nyelvi modellek képességeinek következő határvonala a hosszú távú érvelés és döntéshozatal”, a szöveges kalandjátékok pedig a) rendelkeznek ezekkel a tulajdonságokkal, b) futtatásuk nagyon olcsó. A BALROG hat különböző környezetben teszi lehetővé az AI rendszerek értékelését, amelyek közül néhány a mai rendszerek számára is megoldható, mások viszont – mint a NetHack és annak miniatürizált változata – rendkívüli kihívást jelentenek. „A BALROG-ot nehéz egyszerű memorizálással megoldani – a benchmarkban használt összes környezet procedurálisan generált, így kicsi az esélye annak, hogy kétszer ugyanazzal a szituációval találkozzon a modell” – írják. Az összes környezetre kiterjedő tesztek során a legjobb modellek (gpt-4o és claude-3.5-sonnet) 32,34%-ot, illetve 29,98%-ot értek el. A vizuális képességeket is kihasználó környezetekben a claude-3.5-sonnet és a gemini-1.5-pro vezet 29,08%-os, illetve 25,76%-os eredménnyel. Közelebbről megnézve az eredményeket, látható, hogy ezeket a számokat az egyszerűbb környezetek (BabyAI és Crafter) húzzák fel. Ezzel szemben a TextWorld és a BabyIsAI némileg megoldható, a MiniHack kifejezetten nehéz, a NetHack pedig olyan bonyolult, hogy falba ütköznek rajta a rendszerek: a legjobb modellek is csupán 1% és 2% közötti pontszámot érnek el rajta.
- BabyAI: Egy egyszerű, kétdimenziós rácsvilág, ahol az ágensnek természetes nyelven leírt, változó összetettségű feladatokat kell megoldania.
- Crafter: Egy Minecraft-ihlette rácskörnyezet, ahol a játékosnak fel kell fedeznie a területet, erőforrásokat kell gyűjtenie és tárgyakat kell készítenie a túléléshez.
- TextWorld: Egy teljesen szöveges játék, ahol az ágensnek útvesztőket kell felfedeznie és tárgyakkal kell interakcióba lépnie természetes nyelven keresztül.
- Baby Is AI: Egy környezet, amely a népszerű Baba Is You logikai játékon alapul.
- MiniHack: Egy többfeladatos keretrendszer, amely a NetHack Learning Environment-re épül.
- NetHack Learning Environment: Rendkívüli nehézségéről és összetettségéről ismert, hosszú távú stratégiai tervezést és rövid távú taktikázást igényel.
Miért fontos?
Játsszunk egy szöveges kalandjátékkal, és figyeljük meg a saját élményünket – egyszerre tanuljuk meg a játékvilágot és a szabályrendszert, miközben felépítjük a szöveg és a vizuális reprezentációk által sugallt környezet gazdag kognitív térképét. Ahhoz, hogy jól teljesítsünk a szöveges kalandjátékokban, szükség van arra, hogy meglehetősen összetett fogalmi reprezentációkat alkossunk a világról, amelyben a szöveg közegén keresztül navigálunk. Gyanítom, hogy a NetHack megoldása hihetetlenül nehéz, és kiváló hosszú távú kontextuskezelő rendszert, valamint egy dokumentálatlan világ bonyolult összefüggéseinek felismerésére való képességet igényel. ---