AI laborok versengenek a Pokémon legyőzéséért, mint logikai benchmarkért

A FRONTVONALRÓL

AI laborok versengenek a Pokémon legyőzéséért, mint logikai benchmarkért

2026. február 13. · MI Történik? · 1 perc olvasás

Az AI modellek már átmennek a jogi szakvizsgán és PhD-szintű matematikai problémákat oldanak meg, de van egy kihívás, ami még mindig kifog rajtuk: a Pokémon. Ami szórakoztató kísérletnek indult, mára komoly versennyé vált – a Google, az OpenAI és az Anthropic küzdenek azért, hogy uralják a klasszikus Game Boy játékot. Ez ugyanis tartós tervezést, erőforrás-kezelést és a hibákból való felépülést igényel több száz órán keresztül, nem csak egyetlen meccs erejéig.

Több száz órányi tartós tervezést és erőforrás-kezelést igényel
A Google Gemini 3 Pro modellje nagyjából 406 óra alatt fejezte be a Pokémon Blue-t
Az Anthropic Claude modellje már több mint 500 órát töltött a Pokémon Red-ben
Kvantitatív módszerként szolgál a valós világbeli AI autonómia (agency) értékelésére

Miért fontos?

Az AI modellek a szabványosított teszteken felülmúlhatják az orvosokat, jogászokat és PhD hallgatókat, de még mindig küzdenek sok olyan feladattal, ami az emberek számára könnyen megy. Ez emlékeztet minket arra, hogy a puszta intelligencia és a valós világbeli logikai következtetés két nagyon különböző dolog.

Eredeti forrás megtekintése (angol) →