MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Kutatók bírálják az LMSYS Chatbot Arenát a benchmark-manipuláció és a privát tesztelés miatt

A Cohere, a Princeton, a Stanford, a Waterloo-i Egyetem, az MIT, az Allen Institute for AI és a Washingtoni Egyetem kutatói alaposabban megvizsgálták a Chatbot Arenát (korábbi nevén LMSYS), egy weboldalt, amelyet az AI-fejlesztők rendszereik tesztelésére és rangsorolására használnak. Az elmúlt egy évben az LMSYS-pontszámok „PR-mérőszámmá” váltak – a szereplők versengenek a lehető legmagasabb pontszámért, hogy kijelenthessék: az övék a „legjobb” AI rendszer. A részletes elemzés azonban rávilágít, hogy az LMSYS-t manipulálták, és úgy alakították ki, hogy a látszólag jó eredmények nem feltétlenül korrelálnak a modell tényleges képességeivel. Ez az átfogó elemzés feltárja, hogy hosszú időn keresztül néhány preferált szolgáltató aránytalan hozzáférést kapott az adatokhoz és a teszteléshez.

Miért fontos?

Az LMSYS tanulságos példa arra, mi történik, ha egy benchmark-szám növelését túlzottan optimalizálják, aminek következtében maga a benchmark elveszíti az értelmét. Ahelyett, hogy a modell általános kompetenciáinak közvetett mérője lenne, az LMSYS arra lett alkalmas, hogy megmutassa, mennyire jó egy modell az LMSYS-pontszerzésben. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
INTIMA: Benchmark az LLM-ekkel kialakított paraszociális kapcsolatok tesztelésére
2025. szeptember 1.
A ByteDance közzétette a Multi-SWE-bench-et a többnyelvű AI programozási képességek értékeléséhez
2025. április 14.
Nicholas Carlini 100 valós életben alkalmazható tesztet tett közzé az LLM-ekhez
2024. február 26.
Tudj meg többet
Grok: Elon Musk AI chatbotja – minden, amit tudni kell
AI biztonság: 7 dolog amit SOHA ne ossz meg egy chatbottal