AI KUTATÁS
Kínai kutatók bemutatják az MMT-Bench-et a multimodális LLM-ek vizuális érvelésének mérésére
Kínai kutatók bemutatták az MMT-Bench-et, egy nagyszabású benchmarkot a nyelvi modellek vizuális érvelési kompetenciájának értékelésére. A benchmarkot 30 különböző LLM-en tesztelték (zárt és nyílt forráskódú modelleken egyaránt), és azt találták, hogy a Shanghai AI Laboratory InternVL modellje végzett az első helyen, megelőzve olyan zárt modelleket, mint a Gemini Pro, a Claude 3 Haiku és a GPT-4V. A legtöbb LVLM kiválóan teljesít a vizuális felismerési (VR) és vizuális képaláírás-készítési (VC) feladatokban, ami rávilágít az LVLM-ek azon képességére, hogy felismerjék, „mi” egy tárgy, és leírják a képen látható tartalmat. Azonban a részletes érzékelési feladatoknál (lokalizáció, pixelszintű észlelés stb.) vagy az összetett érvelési feladatoknál (képértékelési döntések) a legtöbb LVLM nehézségekbe ütközik.
- Az MMT-Bench 32 ezer feleletválasztós vizuális kérdést tartalmaz, amelyek 32 alapvető meta-feladatot és 162 részfeladatot fednek le.
- 13 képtípust foglal magában, például természeti jeleneteket, szintetikus képeket, mélységtérképeket, festményeket és orvosi felvételeket.
- Olyan multimodális forgatókönyvekre terjed ki, mint a járművezetés, a GUI-navigáció és az embodied AI.
- Az Intern-VL-Chat-v1.2-34B érte el a legmagasabb összpontszámot (63,4%), amelyet a Qwen-VL-Plus (62,3%) és a GPT-4V (62%) követett.
- A tesztelés 14 képességre terjed ki, beleértve az OCR-t, a számlálást, a 3D érzékelést és az időbeli megértést.
Miért fontos?
A legtöbb vizuális LLM manapság már igen fejlett, ezért óriási értéke van az olyan tesztek kidolgozásának, amelyek azonosítják a gyenge pontjaikat, és széles körben jellemzik a viselkedésüket különböző területeken. Az MMT-Bench azt sugallja, hogy bőven van még tér a fejlődésre, mivel a jelenlegi legjobb modellek is csak ~64%-os összesített teljesítményt érnek el.