Kínai kutatók kifejlesztették a CMMU multimodális érvelési benchmarkot
A Beijing Academy of AI és más intézmények kutatói létrehozták a CMMU-t, a Massive Multi-discipline Multimodal Understanding (MMMU) benchmark kínai változatát. A CMMU hét tantárgy multimodális tartalmát öleli fel: matematika, biológia, fizika, kémia, földrajz, politika és történelem. Minden kérdés megköveteli a modelltől, hogy a kép- és szöveges tartalmat kombinálva generáljon átfogó választ. A kezdeti teszteken a GPT-4V nyújtotta a legjobb összteljesítményt, bár a kínai modellek kiváló eredményeket mutattak egyes nehéz szakaszokon.
- A CMMU 3603 kérdést tartalmaz három típusban: feleletválasztós, többválaszos és kiegészítendő
- A kérdések nehézsége az általános iskolától (6,9%) a középiskolán (47,19%) át a gimnáziumig (45,96%) terjed
- A GPT-4V a legjobb teljesítményt nyújtó modell, amelyet a Qwen-VL-Plus és a Gemini Pro követ
- A kínai Qwen-VL-Plus modell felülmúlja a GPT-4V-t a teszt legnehezebb kérdéseiben
Miért fontos?
A legtöbb AI tesztelési és értékelési rendszer nyugati és angol nyelvű elfogultsággal rendelkezik. A CMMU egyike azon számos példának, amikor kínai kutatók saját teszteket építenek, hogy nagyjából utánozzák a Nyugaton kifejlesztetteket. Ezek a tesztek módot adnak az AI rendszerek viselkedésének jellemzésére, és elengedhetetlen előfeltételei annak, hogy támpontokat kapjunk arról, hol hibáznak és hogyan javítható a teljesítményük.