A Google DeepMind elindította a BIG-Bench Extra Hard-ot az érvelési modellek kihívás elé állítására

AI BENCHMARKOK

A Google DeepMind elindította a BIG-Bench Extra Hard-ot az érvelési modellek kihívás elé állítására

2025. március 3. · MI Történik? · 1 perc olvasás

A Google DeepMind közzétette a „BIG-Bench Extra Hard” (BBEH) benchmarkot, a BIG-Bench egy új részhalmazát, amelyet úgy terveztek, hogy ellenálljon a gyors AI fejlődésnek. A benchmark azért jött létre, mert a jelenlegi csúcstechnológiás modellek már telítették a korábbi verziókat, több mint 90%-os pontosságot érve el. A BBEH 23 feladatot vált fel jelentősen nehezebb változatokkal, amelyek hasonló érvelési képességeket vizsgálnak, de sokkal összetettebb feldolgozást igényelnek.

Olyan készségeket igényel, mint a több lépésből álló (many-hop) érvelés, a menet közbeni tanulás és az érvelési folyamatokban lévő hibák megtalálása
Teszteli a hosszú kontextusú bemenetek feldolgozását és a „tű a szénakazalban” (multi-needle in a haystack) szcenáriókat
Az általános célú modellek jelenleg 23,9%-os pontosságnál tetőznek
Az érvelésre specializált modellek, mint az OpenAI o3-mini (high), 54,2% körüli pontszámot érnek el
A BBEH feladatai lényegesen hosszabbak és terjedelmesebb válaszokat igényelnek, mint az eredeti BBH

Miért fontos?

A nehéz benchmarkok útjelzők a jövőhöz. Ha az érvelési modellek 2026 közepére elérik a 90% feletti eredményt a BBEH-n, az az érvelési képességek folyamatos skálázódását jelzi majd; ha nem sikerül, az jelentős akadályokra utalhat az érvelés alapú skálázásban.

Eredeti forrás megtekintése (angol) →