AI BENCHMARKOK
A Google DeepMind elindította a BIG-Bench Extra Hard-ot az érvelési modellek kihívás elé állítására
A Google DeepMind közzétette a „BIG-Bench Extra Hard” (BBEH) benchmarkot, a BIG-Bench egy új részhalmazát, amelyet úgy terveztek, hogy ellenálljon a gyors AI fejlődésnek. A benchmark azért jött létre, mert a jelenlegi csúcstechnológiás modellek már telítették a korábbi verziókat, több mint 90%-os pontosságot érve el. A BBEH 23 feladatot vált fel jelentősen nehezebb változatokkal, amelyek hasonló érvelési képességeket vizsgálnak, de sokkal összetettebb feldolgozást igényelnek.
- Olyan készségeket igényel, mint a több lépésből álló (many-hop) érvelés, a menet közbeni tanulás és az érvelési folyamatokban lévő hibák megtalálása
- Teszteli a hosszú kontextusú bemenetek feldolgozását és a „tű a szénakazalban” (multi-needle in a haystack) szcenáriókat
- Az általános célú modellek jelenleg 23,9%-os pontosságnál tetőznek
- Az érvelésre specializált modellek, mint az OpenAI o3-mini (high), 54,2% körüli pontszámot érnek el
- A BBEH feladatai lényegesen hosszabbak és terjedelmesebb válaszokat igényelnek, mint az eredeti BBH
Miért fontos?
A nehéz benchmarkok útjelzők a jövőhöz. Ha az érvelési modellek 2026 közepére elérik a 90% feletti eredményt a BBEH-n, az az érvelési képességek folyamatos skálázódását jelzi majd; ha nem sikerül, az jelentős akadályokra utalhat az érvelés alapú skálázásban.