AI OKTÁTÁS
Az új MMIU benchmark a több-lépcsős érvelést értékeli az összetett képértelmezéshez
Kínai kutatók létrehozták és közzétették a Multimodal Multi-image Understanding (MMIU) benchmarkot, egy átfogó értékelési csomagot, amelyet a nagy vizuális nyelvmodellek tesztelésére terveztek több-képes feladatok széles skáláján. Míg sok modern AI-rendszer kiváló az egyedi vizuális-nyelvi feladatokban, a több-fordulós feladatok jelentős kihívást jelentenek.
Most, hogy az AI-rendszereket összetett feladatok megoldására használják, a teljesítmény sokkal inkább azon múlik, hogyan teljesít a rendszer különféle, eltérő kihívásokat tartogató lépéseken keresztül. Az MMIU-hoz hasonló benchmarkok segítenek a kutatóknak tesztelni ezt a fontos képességet, és elősegítik az általánosabb képességek fejlesztését a jövőbeli modellekben.
- Az MMIU 77 659 képet és 11 698 feleletválasztós kérdést tartalmaz.
- 52 különböző feladattípust tesztel, beleértve a szekvenciák előrejelzését és a szoftveres GUI-kban való navigációt.
- A zárt forráskódú modellek, mint a GPT-4o, a Gemini 1.5 és a Claude 3.5-Sonnet 55% körül teljesítenek.
- Az open-source modellek némileg elmaradnak, 50% körüli eredménnyel.
- Olyan feladatokra összpontosít, mint például annak meghatározása, hogy ki tartja a kamerát egy képsorozatban.
Miért fontos?
A több-fordulós érvelés az AI jövője. A teljesítmény fókusza az egyfeladatos pontosságról áttevődik az összetett, több-lépcsős munkafolyamatok kezelésére, amelyek megkövetelik a kontextus megértését több képen vagy interakción keresztül.