MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Google DeepMind elindította a BIG-Bench Extra Hard-ot az érvelési modellek kihívás elé állítására

A Google DeepMind közzétette a „BIG-Bench Extra Hard” (BBEH) benchmarkot, a BIG-Bench egy új részhalmazát, amelyet úgy terveztek, hogy ellenálljon a gyors AI fejlődésnek. A benchmark azért jött létre, mert a jelenlegi csúcstechnológiás modellek már telítették a korábbi verziókat, több mint 90%-os pontosságot érve el. A BBEH 23 feladatot vált fel jelentősen nehezebb változatokkal, amelyek hasonló érvelési képességeket vizsgálnak, de sokkal összetettebb feldolgozást igényelnek.
Miért fontos?

A nehéz benchmarkok útjelzők a jövőhöz. Ha az érvelési modellek 2026 közepére elérik a 90% feletti eredményt a BBEH-n, az az érvelési képességek folyamatos skálázódását jelzi majd; ha nem sikerül, az jelentős akadályokra utalhat az érvelés alapú skálázásban.

Eredeti forrás megtekintése (angol) →