AI ÉRTÉKELÉS
Kutatók bírálják az LMSYS Chatbot Arenát a benchmark-manipuláció és a privát tesztelés miatt
A Cohere, a Princeton, a Stanford, a Waterloo-i Egyetem, az MIT, az Allen Institute for AI és a Washingtoni Egyetem kutatói alaposabban megvizsgálták a Chatbot Arenát (korábbi nevén LMSYS), egy weboldalt, amelyet az AI-fejlesztők rendszereik tesztelésére és rangsorolására használnak. Az elmúlt egy évben az LMSYS-pontszámok „PR-mérőszámmá” váltak – a szereplők versengenek a lehető legmagasabb pontszámért, hogy kijelenthessék: az övék a „legjobb” AI rendszer. A részletes elemzés azonban rávilágít, hogy az LMSYS-t manipulálták, és úgy alakították ki, hogy a látszólag jó eredmények nem feltétlenül korrelálnak a modell tényleges képességeivel. Ez az átfogó elemzés feltárja, hogy hosszú időn keresztül néhány preferált szolgáltató aránytalan hozzáférést kapott az adatokhoz és a teszteléshez.
- Az elemzés 42 szolgáltatót és 243 modellt auditált 2 millió párbaj során
- Felfedeztek egy nem nyilvános irányelvet, amely lehetővé tette a preferált szolgáltatóknak a variánsok privát tesztelését
- Megfigyelték, hogy a Meta egyetlen hónap alatt akár 27 modellt is tesztelt privát módon
- Javasolták a pontszám-visszavonás tilalmát a beküldés után
- Átlátható korlátokat javasoltak a szolgáltatónkénti privát modellekre és tisztességes mintavételezést
Miért fontos?
Az LMSYS tanulságos példa arra, mi történik, ha egy benchmark-szám növelését túlzottan optimalizálják, aminek következtében maga a benchmark elveszíti az értelmét. Ahelyett, hogy a modell általános kompetenciáinak közvetett mérője lenne, az LMSYS arra lett alkalmas, hogy megmutassa, mennyire jó egy modell az LMSYS-pontszerzésben. ---