A FRONTVONALRÓL
AI laborok versengenek a Pokémon legyőzéséért, mint logikai benchmarkért
Az AI modellek már átmennek a jogi szakvizsgán és PhD-szintű matematikai problémákat oldanak meg, de van egy kihívás, ami még mindig kifog rajtuk: a Pokémon. Ami szórakoztató kísérletnek indult, mára komoly versennyé vált – a Google, az OpenAI és az Anthropic küzdenek azért, hogy uralják a klasszikus Game Boy játékot. Ez ugyanis tartós tervezést, erőforrás-kezelést és a hibákból való felépülést igényel több száz órán keresztül, nem csak egyetlen meccs erejéig.
- Több száz órányi tartós tervezést és erőforrás-kezelést igényel
- A Google Gemini 3 Pro modellje nagyjából 406 óra alatt fejezte be a Pokémon Blue-t
- Az Anthropic Claude modellje már több mint 500 órát töltött a Pokémon Red-ben
- Kvantitatív módszerként szolgál a valós világbeli AI autonómia (agency) értékelésére
Miért fontos?
Az AI modellek a szabványosított teszteken felülmúlhatják az orvosokat, jogászokat és PhD hallgatókat, de még mindig küzdenek sok olyan feladattal, ami az emberek számára könnyen megy. Ez emlékeztet minket arra, hogy a puszta intelligencia és a valós világbeli logikai következtetés két nagyon különböző dolog.