AZ ÉLVONALBÓL
AI-laborok Pokémon játékokkal tesztelik a hosszú távú érvelést és tervezést
Az AI-modellek már simán átmennek a jogi szakvizsgán és PhD-szintű matematikai feladatokat oldanak meg, de van egy kihívás, ami még kifog rajtuk: a Pokémon. Ami szórakoztató kísérletnek indult, az mára komoly versennyé vált – a Google, az OpenAI és az Anthropic most egymással küzdenek a klasszikus Game Boy játék elsajátításáért.
- A Gemini 3 Pro elsőként fejezte be a Pokémon Blue-t, ami nagyjából 406 órát vett igénybe.
- A Claude Opus 4.6 jelenleg a Pokémon Red pályáin navigál, eddig több mint 500 órát és 170 000 lépést rögzítettek nála.
- A GPT 5.2 és a Gemini is legyőzte már a kezdeti verziókat, és továbbléptek a folytatásokra.
- A kutatók valós időben, Twitch-közvetítéseken keresztül követik a modellek játékát a haladás monitorozása érdekében.
Miért fontos?
A Pokémon szintlépést jelent a kihívások terén, mivel nem csak egyetlen meccsről van szó: több száz órányi folyamatos tervezést, erőforrás-kezelést és a hibákból való felépülést igényel. Ez pontosan azokat a képességeket értékeli, amelyekre az AI-nak szüksége van ahhoz, hogy a való világban ágensként működhessen. ---