Új tanulmány kérdőjelezi meg a vezető közösségi AI teljesítménymérő platform rangsorait

AI BENCHMARKING

Új tanulmány kérdőjelezi meg a vezető közösségi AI teljesítménymérő platform rangsorait

2025. május 2. · MI Történik? · 1 perc olvasás

A Cohere Labs, az MIT, a Stanford és más intézmények kutatóinak új tanulmánya azt állítja, hogy az LMArena, a vezető közösségi AI benchmark, tisztességtelen előnyöket biztosít a nagy technológiai vállalatoknak, ami potenciálisan torzítja a széles körben követett ranglistáit.

A tanulmány szerint az olyan szolgáltatók, mint a Meta, a Google és az OpenAI, titokban több modellvariánst tesztelnek az Arenában, hogy csak a legjobban teljesítőket tegyék közzé.
Megállapították, hogy a vezető laborok modelljeit előnyben részesítették a kisebb/nyílt modellekkel szemben a mintavételezés során: a Google és az OpenAI kapta az összes interakció több mint 60%-át.
A kísérletek azt mutatták, hogy az Arena adataihoz való hozzáférés javítja a teljesítményt az Arena-specifikus feladatokon, ami inkább modell-overfittingre (túltanulásra), semmint valódi képességbeli fejlődésre utal.
A kutatók azt is megjegyezték, hogy 205 modellt némileg titokban eltávolítottak a platformról, az open-source modelleket pedig magasabb arányban vezették ki.

Miért fontos?

Az LMArena vitatja a tanulmányt, állítva, hogy a ranglista a valódi felhasználói preferenciákat tükrözi. Azonban ezek az állítások károsíthatják a platform hitelességét, amely alapvetően meghatározza a modellek megítélését. A Llama 4 Maverick benchmark-botrányával együtt ez a tanulmány rávilágít arra, hogy az AI értékelése nem mindig az, aminek látszik. ---

Eredeti forrás megtekintése (angol) →