AI Hírek

Az AI laborok a Pokémont használják új benchmarkként a komplex érveléshez

2026. február 13. · MI Történik? · 1 perc olvasás

Az AI modellek simán átmennek a jogi szakvizsgán és PhD-szintű matematikai problémákat oldanak meg, de van egy kihívás, ami még mindig kifog rajtuk: a Pokémon. Ami szórakoztató kísérletnek indult, mára versennyé vált – a Google, az OpenAI és az Anthropic most azért küzdenek, hogy mesterfokon kezeljék a klasszikus Game Boy játékot. A Pokémon azért jelent szintlépést, mert több száz órán keresztül tartó folyamatos tervezést, erőforrás-kezelést és hibajavítást igényel, nem csak egyetlen mérkőzést.

A Gemini 3 Pro nagyjából 406 óra alatt fejezte be a Pokémon Blue-t
A Claude Opus 4.6 több mint 500 órát és 170 000 lépést naplózott a Pokémon Red-ben
A feladat a hosszú távú tervezési és döntéshozatali képességeket értékeli
Twitch streamek jelenleg is valós időben közvetítik a különböző modellek előrehaladását

Miért fontos?

Az AI modellek a teszteken túlszárnyalhatják az orvosokat és jogászokat, de még mindig küzdenek az emberek számára könnyű feladatokkal. Ez emlékeztet arra, hogy a nyers intelligencia és a való világban alkalmazott érvelés két nagyon különböző dolog, ahogy az AI a valódi ágensek felé mozdul el. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A SemiAnalysis feltárta: az AI laborok ezreket veszítenek a havi felhasználói előfizetéseken

19 órája

Esik az Oracle árfolyama a bevételnövekedés ellenére az AI kiadásokkal kapcsolatos aggodalmak miatt

1 napja

Az OpenAI drasztikus API árcsökkentést fontolgat és az Ona infrastruktúra-startup felvásárlását tervezi

1 napja