AI EVALUATION
Az MMLU-Pro nehezíti a benchmarkot, hogy lépést tartson a modellek gyors fejlődésével
Az MMLU az egyik legfontosabb benchmark, amellyel a nyelvi modellek fejlettségét mérik – az elmúlt hónapokban azonban olyan vezető modellek jelentek meg, amelyek túl jól teljesítenek ezen a teszten. Ahelyett, hogy teljesen új tesztet hoztak volna létre, kutatók kidolgozták az MMLU-Pro-t, az MMLU finomított és kibővített változatát. Összesen 12 187 kérdést adtak hozzá: 5 254 új kérdést, valamint 6 933-at az eredeti MMLU-ból válogatva.
- A feleletválasztós opciók számát 4-ről 10-re növelték, hogy csökkentsék a véletlen találgatás hatását.
- Nehéz kérdéseket emeltek át a Scibench, a TheoremQA és különböző STEM weboldalakról.
- Eltávolították a triviális és kétértelmű kérdéseket az eredeti MMLU adathalmazból.
- A Claude 3 Sonnet teljesítménye 0,815-ről 0,5793-ra esett vissza az MMLU-Pro-n az eredeti MMLU-hoz képest.
- A Mixtral-8x7B-v0.1 teljesítménye 0,706-ról 0,3893-ra zuhant, ami jelentősen nagyobb nehézséget jelez.
Miért fontos?
Az AI fejlődésének nyomon követése olyan, mintha nyilakat dobálnánk egy takaró alá rejtett tárgyra – minél több nyilat dobunk, és minél közelebb találunk a tárgyhoz, annál nagyobb esélyünk van meghatározni és látni annak valódi alakját. Az olyan adathalmazok, mint az MMLU-Pro, egy újabb nyilat adnak a kezünkbe, a nehézsége pedig azt jelenti, hogy a nyíl hegye még élesebb lett. ---