MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A BALROG benchmark komplex szöveges kalandjátékokon keresztül értékeli a vizuális nyelvi modelleket

A University College London, az IDEAS NCBR, a University of Oxford, a New York University és az Anthropic kutatói létrehozták a BALROG-ot, egy vizuális nyelvi modellekhez szánt benchmarkot, amely szöveges kalandjátékok segítségével teszteli az intelligenciát. A BALROG alapgondolata az, hogy „a nyelvi és vizuális nyelvi modellek képességeinek következő határvonala a hosszú távú érvelés és döntéshozatal”, a szöveges kalandjátékok pedig a) rendelkeznek ezekkel a tulajdonságokkal, b) futtatásuk nagyon olcsó. A BALROG hat különböző környezetben teszi lehetővé az AI rendszerek értékelését, amelyek közül néhány a mai rendszerek számára is megoldható, mások viszont – mint a NetHack és annak miniatürizált változata – rendkívüli kihívást jelentenek. „A BALROG-ot nehéz egyszerű memorizálással megoldani – a benchmarkban használt összes környezet procedurálisan generált, így kicsi az esélye annak, hogy kétszer ugyanazzal a szituációval találkozzon a modell” – írják. Az összes környezetre kiterjedő tesztek során a legjobb modellek (gpt-4o és claude-3.5-sonnet) 32,34%-ot, illetve 29,98%-ot értek el. A vizuális képességeket is kihasználó környezetekben a claude-3.5-sonnet és a gemini-1.5-pro vezet 29,08%-os, illetve 25,76%-os eredménnyel. Közelebbről megnézve az eredményeket, látható, hogy ezeket a számokat az egyszerűbb környezetek (BabyAI és Crafter) húzzák fel. Ezzel szemben a TextWorld és a BabyIsAI némileg megoldható, a MiniHack kifejezetten nehéz, a NetHack pedig olyan bonyolult, hogy falba ütköznek rajta a rendszerek: a legjobb modellek is csupán 1% és 2% közötti pontszámot érnek el rajta.
Miért fontos?

Játsszunk egy szöveges kalandjátékkal, és figyeljük meg a saját élményünket – egyszerre tanuljuk meg a játékvilágot és a szabályrendszert, miközben felépítjük a szöveg és a vizuális reprezentációk által sugallt környezet gazdag kognitív térképét. Ahhoz, hogy jól teljesítsünk a szöveges kalandjátékokban, szükség van arra, hogy meglehetősen összetett fogalmi reprezentációkat alkossunk a világról, amelyben a szöveg közegén keresztül navigálunk. Gyanítom, hogy a NetHack megoldása hihetetlenül nehéz, és kiváló hosszú távú kontextuskezelő rendszert, valamint egy dokumentálatlan világ bonyolult összefüggéseinek felismerésére való képességet igényel. ---

Eredeti forrás megtekintése (angol) →