A modern nagy nyelvi modellek értékelésének növekvő összetettsége és kihívásai

AI ÉRTÉKELÉS

A modern nagy nyelvi modellek értékelésének növekvő összetettsége és kihívásai

2024. november 24. · MI Történik? · 1 perc olvasás

A nyelvi modellek értékelése meglepően összetett feladat. A hagyományos gépi tanulási feladatokkal ellentétben – ahol világosan meghatározhatók a helyes kimenetek – az LLM-ek egy nyitott végű térben működnek, ahol a válaszok kreatívak, szubjektívek és erősen kontextusfüggőek lehetnek. Gyakran nincs egyetlen üdvözítő válasz. A hagyományos akadémiai benchmarkok, mint az MMLU (Massive Multitask Language Understanding) vagy a GSM8K (általános iskolai matematika példatár), valamint az iparági ranglisták egyre kevésbé megbízható mutatói a valós teljesítménynek, többek között az adatszennyezés és a rendszerek növekvő összetettsége miatt.

Adatszennyezés: A modern LLM-eket hatalmas mennyiségű internetes adaton tanítják, amelyek gyakran tartalmazzák a benchmark adatokat és azok megoldásait is.
Rendszer-összetettség: A vezető modellek ma már nem csupán nyers nyelvi modellek; kifinomult rendszerekről van szó, amelyek komplex prompt-láncokat, eszközhasználatot és visszakereséssel bővített generálást (RAG) alkalmaznak.
A hagyományos benchmarkokat nem ezekre a fejlett rendszerszintű szempontokra tervezték.
Összeférhetetlenség: Az iparági ranglistákat kritika éri, mivel az értékelő cégek gyakran együttműködnek ugyanazokkal a laborokkal, amelyek a rangsorolt modelleket fejlesztik.

Eredeti forrás megtekintése (angol) →