AI ÉRTÉKELÉS
A BALROG benchmark klasszikus szöveges kalandjátékokkal teszteli az ágens-alapú AI érvelését
A University College London, az IDEAS NCBR, az University of Oxford, a New York University és az Anthropic kutatói létrehozták a BALROG-ot, egy vizuális nyelvi modellekhez szánt benchmarkot, amely az intelligenciájukat azzal teszteli, hogy mennyire teljesítenek jól egy sor szöveges kalandjátékban. A BALROG-ot az a felismerés hívta életre, hogy „a nyelvi és vizuális-nyelvi modellek képességeinek következő határterülete a hosszú távú következtetésben és döntéshozatalban rejlik”, és a szöveges kalandjátékok a) rendelkeznek ezekkel a tulajdonságokkal, és b) futtatásuk nagyon olcsó. „Ezek a környezetek könnyű szimulátorokkal rendelkeznek, így a benchmark megfizethető marad a kutatói közösség számára.”
- BabyAI: Egy egyszerű, kétdimenziós rácsvilág, amelyben az ágensnek természetes nyelven leírt feladatokat kell megoldania.
- Crafter: Egy Minecraft által ihletett rácskörnyezet, ahol a játékosok felfedeznek, erőforrásokat gyűjtenek és tárgyakat készítenek a túlélés érdekében.
- TextWorld: Egy teljesen szövegalapú játék, ahol az ágensek labirintusokat fedeznek fel, és természetes nyelven lépnek interakcióba tárgyakkal.
- Baby Is AI: A népszerű Baba Is You logikai videojátékon alapuló környezet.
- MiniHack: Egy több feladatot kezelő keretrendszer, amely a NetHack Learning Environment-re épül.
- NetHack Learning Environment: Rendkívüli nehézségéről ismert, amely hosszú távú stratégiai tervezést és rövid távú taktikát igényel.
Miért fontos?
Próbálj ki egy szöveges kalandjátékot, és figyeld meg a saját élményedet – egyszerre tanulod a játékvilágot és a szabályrendszert, miközben felépíted a szöveg és a vizuális ábrázolások által sugallt környezet gazdag kognitív térképét. Úgy tűnik, hogy a szöveges kalandjátékokban való sikeres szerepléshez meglehetősen összetett fogalmi reprezentációkat kell alkotnunk arról a világról, amelyben a szövegen keresztül navigálunk. Gyanítom, hogy a NetHackben győzni hihetetlenül nehéz, és kiváló hosszú távú kontextus-kezelést, valamint az összetett összefüggések felismerésének képességét igényli egy dokumentálatlan világban. ---