MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Artificial Analysis nehezebb, valós világbeli tesztekkel újítja meg az Intelligence Indexet

Az AI rendszereket tesztelő Artificial Analysis frissítette az Intelligence Index értékelési szempontjait, hogy jobban tükrözzék a nagy nyelvi modellek valós felhasználási esetekben nyújtott teljesítményét. Az Artificial Analysis Intelligence Index v4.0, amely 10 teljesítménymérő benchmark átlaga, lecserélt három széles körben használt tesztet – amelyeket a vezető LLM-ek már nagyjából kimaxoltak – kevésbé ismert tesztekre. Az új benchmarkok a modellek gazdaságilag hasznos munkavégzési képességét, a tények találgatás nélküli felidézését és a logikai következtetést mérik. Az extra magas logikai szintre állított GPT-5.2 vezet 51 ponttal, őt követi a Claude Opus 4.5 bekapcsolt következtetéssel (49) és a Gemini 3 Pro Preview magas következtetési beállításon (48). A nyílt súlyú LLM-ek közül a GLM-4.7 (42) az első. Az Intelligence Index zero-shot angol szöveges bemenetekkel értékeli a modelleket. Az Artificial Analysis azonos promptokat ad a modelleknek különböző logikai és hőmérsékleti beállítások mellett. Az eszközfuttató kódjuk a modelleknek csak egy bash terminálhoz és a webhez enged hozzáférést. A 4.0-s verzióhoz a cég eltávolította az MMLU-Pro (általános tudás alapú kérdések), az AIME 2025 (matematikai versenyfeladatok) és a LiveCodeBench (kódolási versenyfeladatok) teszteket. A változtatás egyik oka a régi benchmarkok telítettsége, ahol a top modellek közel tökéletes eredményeket érnek el a tanítóadatok esetleges szennyezettsége vagy a túlillesztés (overfitting) miatt.
Miért fontos?

Az Intelligence Index az LLM teljesítmény mérésének egyik fontos mérőszámává vált. Ahhoz azonban, hogy hasznos maradjon, a technológiával együtt kell fejlődnie. A telített benchmarkokat értelmesebb mérőszámokkal kell helyettesíteni. Az új indexbe bevont tesztek nemcsak kevésbé telítettek vagy szennyezettek, hanem másfajta teljesítményt is mérnek. Az elmúlt évben a matematikai, kódolási és általános műveltségi tesztek kevésbé váltak meghatározóvá, ahogy a modellek képessé váltak dokumentumok készítésére, komplex problémák átgondolására és megbízható információk találgatás nélküli generálására. Az új index a sokoldalúbb és a jövőben gazdaságilag értékesebb modelleket jutalmazza.

Eredeti forrás megtekintése (angol) →