AI BENCHMARKING
Új tanulmány kérdőjelezi meg a vezető közösségi AI teljesítménymérő platform rangsorait
A Cohere Labs, az MIT, a Stanford és más intézmények kutatóinak új tanulmánya azt állítja, hogy az LMArena, a vezető közösségi AI benchmark, tisztességtelen előnyöket biztosít a nagy technológiai vállalatoknak, ami potenciálisan torzítja a széles körben követett ranglistáit.
- A tanulmány szerint az olyan szolgáltatók, mint a Meta, a Google és az OpenAI, titokban több modellvariánst tesztelnek az Arenában, hogy csak a legjobban teljesítőket tegyék közzé.
- Megállapították, hogy a vezető laborok modelljeit előnyben részesítették a kisebb/nyílt modellekkel szemben a mintavételezés során: a Google és az OpenAI kapta az összes interakció több mint 60%-át.
- A kísérletek azt mutatták, hogy az Arena adataihoz való hozzáférés javítja a teljesítményt az Arena-specifikus feladatokon, ami inkább modell-overfittingre (túltanulásra), semmint valódi képességbeli fejlődésre utal.
- A kutatók azt is megjegyezték, hogy 205 modellt némileg titokban eltávolítottak a platformról, az open-source modelleket pedig magasabb arányban vezették ki.
Miért fontos?
Az LMArena vitatja a tanulmányt, állítva, hogy a ranglista a valódi felhasználói preferenciákat tükrözi. Azonban ezek az állítások károsíthatják a platform hitelességét, amely alapvetően meghatározza a modellek megítélését. A Llama 4 Maverick benchmark-botrányával együtt ez a tanulmány rávilágít arra, hogy az AI értékelése nem mindig az, aminek látszik. ---