MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Scale AI tanulmánya jelentős overfittinget mutatott ki az LLM matematikai benchmarkoknál

A Scale AI új kutatása jelentős „overfittinget” (túlillesztést) fedezett fel bizonyos LLM-eknél a népszerű AI benchmarkokon, ami kérdéseket vet fel a jelenlegi ranglisták és értékelési módszerek hitelességével kapcsolatban.
Miért fontos?

Bár a benchmark-eredményeket gyakran megkérdőjelezték már, az adatok azt mutatják, hogy az overfitting hamis benyomást kelthet a modellek teljesítményéről. Az eredmények igazolják az olyan nehezebben kijátszható értékelési módszerek szükségességét, mint a GSM1k, ahogy az AI képességei tovább fejlődnek. ---

Eredeti forrás megtekintése (angol) →