MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A BALROG benchmark klasszikus szöveges kalandjátékokkal teszteli az ágens-alapú AI érvelését

A University College London, az IDEAS NCBR, az University of Oxford, a New York University és az Anthropic kutatói létrehozták a BALROG-ot, egy vizuális nyelvi modellekhez szánt benchmarkot, amely az intelligenciájukat azzal teszteli, hogy mennyire teljesítenek jól egy sor szöveges kalandjátékban. A BALROG-ot az a felismerés hívta életre, hogy „a nyelvi és vizuális-nyelvi modellek képességeinek következő határterülete a hosszú távú következtetésben és döntéshozatalban rejlik”, és a szöveges kalandjátékok a) rendelkeznek ezekkel a tulajdonságokkal, és b) futtatásuk nagyon olcsó. „Ezek a környezetek könnyű szimulátorokkal rendelkeznek, így a benchmark megfizethető marad a kutatói közösség számára.”
Miért fontos?

Próbálj ki egy szöveges kalandjátékot, és figyeld meg a saját élményedet – egyszerre tanulod a játékvilágot és a szabályrendszert, miközben felépíted a szöveg és a vizuális ábrázolások által sugallt környezet gazdag kognitív térképét. Úgy tűnik, hogy a szöveges kalandjátékokban való sikeres szerepléshez meglehetősen összetett fogalmi reprezentációkat kell alkotnunk arról a világról, amelyben a szövegen keresztül navigálunk. Gyanítom, hogy a NetHackben győzni hihetetlenül nehéz, és kiváló hosszú távú kontextus-kezelést, valamint az összetett összefüggések felismerésének képességét igényli egy dokumentálatlan világban. ---

Eredeti forrás megtekintése (angol) →