A REBUS benchmark komplex szó-kép rejtvényekkel teszteli a látás-nyelvi modelleket

2024. január 15. · MI Történik? · 2 perc olvasás

Független kutatók egy csoportja – ketten a Cavendish Labshoz és a MATS-hez kötődnek – egy rendkívül nehéz tesztet dolgozott ki a látás-nyelvi modellek (VLM-ek, mint a GPT-4V vagy a Google Gemini) érvelési képességeinek mérésére. A teszt során a VLM-eknek úgynevezett REBUS rejtvényeket kell megoldaniuk – olyan feladványokat, amelyek illusztrációkat vagy fényképeket kombinálnak betűkkel bizonyos szavak vagy kifejezések ábrázolására. Példa egy REBUS feladatra: a „Tengeri élet” kategóriában a Mars bolygó képe látható mellette egy „-S” felirattal, majd egy + jel, majd egy drótkerítés képe mellette egy „-K” felirattal – a helyes válasz a MARLIN (MAR(-S)+LIN(-K)).

Az adatkészlet: A kutatás részeként létrehozták és közzétették a REBUS-t, amely 333 eredeti képi szóviccet tartalmaz, 13 különböző kategóriába sorolva. „191 könnyű, 114 közepes és 28 nehéz rejtvény van benne, ahol a nehezebb feladványok részletesebb képfelismerést, fejlettebb érvelési technikákat vagy mindkettőt igényelnek” – írják.

Rendkívül nehéz teszt: A Rebus azért kihívást jelentő, mert a helyes válaszokhoz több képesség kombinációja szükséges: többlépcsős vizuális érvelés, helyesírás-javítás, világismeret, megalapozott képfelismerés, az emberi szándék megértése, valamint több hipotézis felállításának és tesztelésének képessége a helyes válasz eléréséhez. Összességében a Rebus feladványok megoldása jó jelzője annak a képességnek, hogy valaki el tudjon szakadni a konkrét problémáktól és általánosítani tudjon. Ezért nem meglepő, hogy a Rebus nagyon nehéznek bizonyul a mai AI-rendszerek számára – még a legerősebb, nyilvánosan bejelentett zárt forráskódú modelleknek is. A tesztek során a szerzők azt találták, hogy a GPT-4V összességében 24%-ot ért el, ezt követte a Google Gemini Pro 13,2%-kal, majd jelentős visszaesés után a legjobb nyílt forráskódú modell (LLaVa-1.5-13B) 1,8%-ot teljesített.

Többlépcsős vizuális érvelés.
Helyesírás-javítás.
Világismeret.
Megalapozott képfelismerés.
Az emberi szándék megértése.
Több hipotézis generálásának és tesztelésének képessége.

Miért fontos?

A REBUS feladványok valójában hasznos mérőszámai lehetnek az általános vizuális-nyelvi intelligenciának. Ezen kihívások megoldása, amelyek gondos ellenőrzést és a few-shot promptolás elkerülését igénylik, korrelálhat a modellek érdemi általánosítási képességével az egyszerű mintafelismerésen túl. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A NEURA Robotics 1,4 milliárd dollárt gyűjtött az Amazon, az Nvidia és a Qualcomm bevonásával

most

Információarchitekt prompt az összetett részletek közérthető felismerésekké alakításához

2 órája

Boston Dynamics Spot robotok járőröznek a 2026-os FIFA Világbajnokság stadionjaiban

4 órája