BENCHMARKS
Az Artificial Analysis nehezebb, valós világbeli tesztekkel újítja meg az Intelligence Indexet
Az AI rendszereket tesztelő Artificial Analysis frissítette az Intelligence Index értékelési szempontjait, hogy jobban tükrözzék a nagy nyelvi modellek valós felhasználási esetekben nyújtott teljesítményét. Az Artificial Analysis Intelligence Index v4.0, amely 10 teljesítménymérő benchmark átlaga, lecserélt három széles körben használt tesztet – amelyeket a vezető LLM-ek már nagyjából kimaxoltak – kevésbé ismert tesztekre. Az új benchmarkok a modellek gazdaságilag hasznos munkavégzési képességét, a tények találgatás nélküli felidézését és a logikai következtetést mérik. Az extra magas logikai szintre állított GPT-5.2 vezet 51 ponttal, őt követi a Claude Opus 4.5 bekapcsolt következtetéssel (49) és a Gemini 3 Pro Preview magas következtetési beállításon (48). A nyílt súlyú LLM-ek közül a GLM-4.7 (42) az első. Az Intelligence Index zero-shot angol szöveges bemenetekkel értékeli a modelleket. Az Artificial Analysis azonos promptokat ad a modelleknek különböző logikai és hőmérsékleti beállítások mellett. Az eszközfuttató kódjuk a modelleknek csak egy bash terminálhoz és a webhez enged hozzáférést. A 4.0-s verzióhoz a cég eltávolította az MMLU-Pro (általános tudás alapú kérdések), az AIME 2025 (matematikai versenyfeladatok) és a LiveCodeBench (kódolási versenyfeladatok) teszteket. A változtatás egyik oka a régi benchmarkok telítettsége, ahol a top modellek közel tökéletes eredményeket érnek el a tanítóadatok esetleges szennyezettsége vagy a túlillesztés (overfitting) miatt.
- GDPval-AA: A modell dokumentum-, táblázat- és diagramkészítő képességét teszteli; itt a GPT-5.2 vezet 1428-as Elo pontszámmal.
- AA-Omniscience: A technikai pontosságot és a hallucinációkat méri; a Gemini 3 Pro Preview érte el a legmagasabb pontszámot (13), miközben a legtöbb modell 0 alatt maradt.
- CritPt: 71 publikálatlan, PhD-szintű fizika feladattal teszi próbára a modelleket; a GPT-5.2 érte el a legmagasabb pontosságot, ami mindössze 11,6 százalék volt.
- Eltávolított benchmarkok: Az MMLU-Pro, az AIME 2025 és a LiveCodeBench kikerült, mert a csúcsmodellek közel tökéletes pontszámokat értek el.
- Megtartott tesztek: Az index megtartott hét tesztet, köztük a SciCode, IFBench, GPQA Diamond és a Humanity's Last Exam nevűeket.
- Hallucinációs mutatók: Az AA-Omniscience teszt rávilágított, hogy a pontos modelleknek gyakran magas a hallucinációs rátájuk, például a Gemini 3 Pro Preview 88 százalékos rátája.
Miért fontos?
Az Intelligence Index az LLM teljesítmény mérésének egyik fontos mérőszámává vált. Ahhoz azonban, hogy hasznos maradjon, a technológiával együtt kell fejlődnie. A telített benchmarkokat értelmesebb mérőszámokkal kell helyettesíteni. Az új indexbe bevont tesztek nemcsak kevésbé telítettek vagy szennyezettek, hanem másfajta teljesítményt is mérnek. Az elmúlt évben a matematikai, kódolási és általános műveltségi tesztek kevésbé váltak meghatározóvá, ahogy a modellek képessé váltak dokumentumok készítésére, komplex problémák átgondolására és megbízható információk találgatás nélküli generálására. Az új index a sokoldalúbb és a jövőben gazdaságilag értékesebb modelleket jutalmazza.