A REBUS benchmark komplex szó-kép rejtvényekkel teszteli a látás-nyelvi modelleket
Független kutatók egy csoportja – ketten a Cavendish Labshoz és a MATS-hez kötődnek – egy rendkívül nehéz tesztet dolgozott ki a látás-nyelvi modellek (VLM-ek, mint a GPT-4V vagy a Google Gemini) érvelési képességeinek mérésére. A teszt során a VLM-eknek úgynevezett REBUS rejtvényeket kell megoldaniuk – olyan feladványokat, amelyek illusztrációkat vagy fényképeket kombinálnak betűkkel bizonyos szavak vagy kifejezések ábrázolására. Példa egy REBUS feladatra: a „Tengeri élet” kategóriában a Mars bolygó képe látható mellette egy „-S” felirattal, majd egy + jel, majd egy drótkerítés képe mellette egy „-K” felirattal – a helyes válasz a MARLIN (MAR(-S)+LIN(-K)).
Az adatkészlet: A kutatás részeként létrehozták és közzétették a REBUS-t, amely 333 eredeti képi szóviccet tartalmaz, 13 különböző kategóriába sorolva. „191 könnyű, 114 közepes és 28 nehéz rejtvény van benne, ahol a nehezebb feladványok részletesebb képfelismerést, fejlettebb érvelési technikákat vagy mindkettőt igényelnek” – írják.
Rendkívül nehéz teszt: A Rebus azért kihívást jelentő, mert a helyes válaszokhoz több képesség kombinációja szükséges: többlépcsős vizuális érvelés, helyesírás-javítás, világismeret, megalapozott képfelismerés, az emberi szándék megértése, valamint több hipotézis felállításának és tesztelésének képessége a helyes válasz eléréséhez. Összességében a Rebus feladványok megoldása jó jelzője annak a képességnek, hogy valaki el tudjon szakadni a konkrét problémáktól és általánosítani tudjon. Ezért nem meglepő, hogy a Rebus nagyon nehéznek bizonyul a mai AI-rendszerek számára – még a legerősebb, nyilvánosan bejelentett zárt forráskódú modelleknek is. A tesztek során a szerzők azt találták, hogy a GPT-4V összességében 24%-ot ért el, ezt követte a Google Gemini Pro 13,2%-kal, majd jelentős visszaesés után a legjobb nyílt forráskódú modell (LLaVa-1.5-13B) 1,8%-ot teljesített.
- Többlépcsős vizuális érvelés.
- Helyesírás-javítás.
- Világismeret.
- Megalapozott képfelismerés.
- Az emberi szándék megértése.
- Több hipotézis generálásának és tesztelésének képessége.
Miért fontos?
A REBUS feladványok valójában hasznos mérőszámai lehetnek az általános vizuális-nyelvi intelligenciának. Ezen kihívások megoldása, amelyek gondos ellenőrzést és a few-shot promptolás elkerülését igénylik, korrelálhat a modellek érdemi általánosítási képességével az egyszerű mintafelismerésen túl. ---