Kutatók bírálják az LMSYS Chatbot Arenát a benchmark-manipuláció és a privát tesztelés miatt

AI ÉRTÉKELÉS

Kutatók bírálják az LMSYS Chatbot Arenát a benchmark-manipuláció és a privát tesztelés miatt

2025. május 6. · MI Történik? · 1 perc olvasás

A Cohere, a Princeton, a Stanford, a Waterloo-i Egyetem, az MIT, az Allen Institute for AI és a Washingtoni Egyetem kutatói alaposabban megvizsgálták a Chatbot Arenát (korábbi nevén LMSYS), egy weboldalt, amelyet az AI-fejlesztők rendszereik tesztelésére és rangsorolására használnak. Az elmúlt egy évben az LMSYS-pontszámok „PR-mérőszámmá” váltak – a szereplők versengenek a lehető legmagasabb pontszámért, hogy kijelenthessék: az övék a „legjobb” AI rendszer. A részletes elemzés azonban rávilágít, hogy az LMSYS-t manipulálták, és úgy alakították ki, hogy a látszólag jó eredmények nem feltétlenül korrelálnak a modell tényleges képességeivel. Ez az átfogó elemzés feltárja, hogy hosszú időn keresztül néhány preferált szolgáltató aránytalan hozzáférést kapott az adatokhoz és a teszteléshez.

Az elemzés 42 szolgáltatót és 243 modellt auditált 2 millió párbaj során
Felfedeztek egy nem nyilvános irányelvet, amely lehetővé tette a preferált szolgáltatóknak a variánsok privát tesztelését
Megfigyelték, hogy a Meta egyetlen hónap alatt akár 27 modellt is tesztelt privát módon
Javasolták a pontszám-visszavonás tilalmát a beküldés után
Átlátható korlátokat javasoltak a szolgáltatónkénti privát modellekre és tisztességes mintavételezést

Miért fontos?

Az LMSYS tanulságos példa arra, mi történik, ha egy benchmark-szám növelését túlzottan optimalizálják, aminek következtében maga a benchmark elveszíti az értelmét. Ahelyett, hogy a modell általános kompetenciáinak közvetett mérője lenne, az LMSYS arra lett alkalmas, hogy megmutassa, mennyire jó egy modell az LMSYS-pontszerzésben. ---

Eredeti forrás megtekintése (angol) →