AI-laborok Pokémon játékokkal tesztelik a hosszú távú érvelést és tervezést

AZ ÉLVONALBÓL

AI-laborok Pokémon játékokkal tesztelik a hosszú távú érvelést és tervezést

2026. február 13. · MI Történik? · 1 perc olvasás

Az AI-modellek már simán átmennek a jogi szakvizsgán és PhD-szintű matematikai feladatokat oldanak meg, de van egy kihívás, ami még kifog rajtuk: a Pokémon. Ami szórakoztató kísérletnek indult, az mára komoly versennyé vált – a Google, az OpenAI és az Anthropic most egymással küzdenek a klasszikus Game Boy játék elsajátításáért.

A Gemini 3 Pro elsőként fejezte be a Pokémon Blue-t, ami nagyjából 406 órát vett igénybe.
A Claude Opus 4.6 jelenleg a Pokémon Red pályáin navigál, eddig több mint 500 órát és 170 000 lépést rögzítettek nála.
A GPT 5.2 és a Gemini is legyőzte már a kezdeti verziókat, és továbbléptek a folytatásokra.
A kutatók valós időben, Twitch-közvetítéseken keresztül követik a modellek játékát a haladás monitorozása érdekében.

Miért fontos?

A Pokémon szintlépést jelent a kihívások terén, mivel nem csak egyetlen meccsről van szó: több száz órányi folyamatos tervezést, erőforrás-kezelést és a hibákból való felépülést igényel. Ez pontosan azokat a képességeket értékeli, amelyekre az AI-nak szüksége van ahhoz, hogy a való világban ágensként működhessen. ---

Eredeti forrás megtekintése (angol) →