A Scale AI tanulmánya jelentős overfittinget mutatott ki az LLM matematikai benchmarkoknál

AI RESEARCH

A Scale AI tanulmánya jelentős overfittinget mutatott ki az LLM matematikai benchmarkoknál

2024. május 3. · MI Történik? · 1 perc olvasás

A Scale AI új kutatása jelentős „overfittinget” (túlillesztést) fedezett fel bizonyos LLM-eknél a népszerű AI benchmarkokon, ami kérdéseket vet fel a jelenlegi ranglisták és értékelési módszerek hitelességével kapcsolatban.

Az overfitting azt jelenti, hogy a modellek a benchmarkokban szereplő konkrét problémákat memorizálják ahelyett, hogy általános problémamegoldó készségeket sajátítanának el.
A Scale létrehozott egy új adatkészletet GSM1k néven, amely szorosan hasonlít a széles körben használt GSM8k benchmarkhoz, amelyet az AI modellek matematikai képességeinek tesztelésére használnak.
A GSM1k-val végzett tesztelés során több vezető AI modell sokkal rosszabbul teljesített, mint a GSM8k esetében, ami inkább memorizálásra, mintsem valódi megértésre utal.
A Mistral és a Phi két figyelemre méltó alulteljesítő volt, míg a GPT-4, a Claude, a Gemini és a Llama hasonló teljesítményt mutatott.

Miért fontos?

Bár a benchmark-eredményeket gyakran megkérdőjelezték már, az adatok azt mutatják, hogy az overfitting hamis benyomást kelthet a modellek teljesítményéről. Az eredmények igazolják az olyan nehezebben kijátszható értékelési módszerek szükségességét, mint a GSM1k, ahogy az AI képességei tovább fejlődnek. ---

Eredeti forrás megtekintése (angol) →