MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Kínai kutatók bemutatják az MMT-Bench-et a multimodális LLM-ek vizuális érvelésének mérésére

Kínai kutatók bemutatták az MMT-Bench-et, egy nagyszabású benchmarkot a nyelvi modellek vizuális érvelési kompetenciájának értékelésére. A benchmarkot 30 különböző LLM-en tesztelték (zárt és nyílt forráskódú modelleken egyaránt), és azt találták, hogy a Shanghai AI Laboratory InternVL modellje végzett az első helyen, megelőzve olyan zárt modelleket, mint a Gemini Pro, a Claude 3 Haiku és a GPT-4V. A legtöbb LVLM kiválóan teljesít a vizuális felismerési (VR) és vizuális képaláírás-készítési (VC) feladatokban, ami rávilágít az LVLM-ek azon képességére, hogy felismerjék, „mi” egy tárgy, és leírják a képen látható tartalmat. Azonban a részletes érzékelési feladatoknál (lokalizáció, pixelszintű észlelés stb.) vagy az összetett érvelési feladatoknál (képértékelési döntések) a legtöbb LVLM nehézségekbe ütközik.
Miért fontos?

A legtöbb vizuális LLM manapság már igen fejlett, ezért óriási értéke van az olyan tesztek kidolgozásának, amelyek azonosítják a gyenge pontjaikat, és széles körben jellemzik a viselkedésüket különböző területeken. Az MMT-Bench azt sugallja, hogy bőven van még tér a fejlődésre, mivel a jelenlegi legjobb modellek is csak ~64%-os összesített teljesítményt érnek el.

Eredeti forrás megtekintése (angol) →