Az új MMIU benchmark a több-lépcsős érvelést értékeli az összetett képértelmezéshez

AI OKTÁTÁS

Az új MMIU benchmark a több-lépcsős érvelést értékeli az összetett képértelmezéshez

2024. augusztus 12. · MI Történik? · 1 perc olvasás

Kínai kutatók létrehozták és közzétették a Multimodal Multi-image Understanding (MMIU) benchmarkot, egy átfogó értékelési csomagot, amelyet a nagy vizuális nyelvmodellek tesztelésére terveztek több-képes feladatok széles skáláján. Míg sok modern AI-rendszer kiváló az egyedi vizuális-nyelvi feladatokban, a több-fordulós feladatok jelentős kihívást jelentenek. Most, hogy az AI-rendszereket összetett feladatok megoldására használják, a teljesítmény sokkal inkább azon múlik, hogyan teljesít a rendszer különféle, eltérő kihívásokat tartogató lépéseken keresztül. Az MMIU-hoz hasonló benchmarkok segítenek a kutatóknak tesztelni ezt a fontos képességet, és elősegítik az általánosabb képességek fejlesztését a jövőbeli modellekben.

Az MMIU 77 659 képet és 11 698 feleletválasztós kérdést tartalmaz.
52 különböző feladattípust tesztel, beleértve a szekvenciák előrejelzését és a szoftveres GUI-kban való navigációt.
A zárt forráskódú modellek, mint a GPT-4o, a Gemini 1.5 és a Claude 3.5-Sonnet 55% körül teljesítenek.
Az open-source modellek némileg elmaradnak, 50% körüli eredménnyel.
Olyan feladatokra összpontosít, mint például annak meghatározása, hogy ki tartja a kamerát egy képsorozatban.

Miért fontos?

A több-fordulós érvelés az AI jövője. A teljesítmény fókusza az egyfeladatos pontosságról áttevődik az összetett, több-lépcsős munkafolyamatok kezelésére, amelyek megkövetelik a kontextus megértését több képen vagy interakción keresztül.

Eredeti forrás megtekintése (angol) →