AI RESEARCH
A Scale AI tanulmánya jelentős overfittinget mutatott ki az LLM matematikai benchmarkoknál
A Scale AI új kutatása jelentős „overfittinget” (túlillesztést) fedezett fel bizonyos LLM-eknél a népszerű AI benchmarkokon, ami kérdéseket vet fel a jelenlegi ranglisták és értékelési módszerek hitelességével kapcsolatban.
- Az overfitting azt jelenti, hogy a modellek a benchmarkokban szereplő konkrét problémákat memorizálják ahelyett, hogy általános problémamegoldó készségeket sajátítanának el.
- A Scale létrehozott egy új adatkészletet GSM1k néven, amely szorosan hasonlít a széles körben használt GSM8k benchmarkhoz, amelyet az AI modellek matematikai képességeinek tesztelésére használnak.
- A GSM1k-val végzett tesztelés során több vezető AI modell sokkal rosszabbul teljesített, mint a GSM8k esetében, ami inkább memorizálásra, mintsem valódi megértésre utal.
- A Mistral és a Phi két figyelemre méltó alulteljesítő volt, míg a GPT-4, a Claude, a Gemini és a Llama hasonló teljesítményt mutatott.
Miért fontos?
Bár a benchmark-eredményeket gyakran megkérdőjelezték már, az adatok azt mutatják, hogy az overfitting hamis benyomást kelthet a modellek teljesítményéről. Az eredmények igazolják az olyan nehezebben kijátszható értékelési módszerek szükségességét, mint a GSM1k, ahogy az AI képességei tovább fejlődnek. ---