A FRONTVONALRÓL
Az AI laborok a Pokémont használják új benchmarkként a komplex érveléshez
Az AI modellek simán átmennek a jogi szakvizsgán és PhD-szintű matematikai problémákat oldanak meg, de van egy kihívás, ami még mindig kifog rajtuk: a Pokémon. Ami szórakoztató kísérletnek indult, mára versennyé vált – a Google, az OpenAI és az Anthropic most azért küzdenek, hogy mesterfokon kezeljék a klasszikus Game Boy játékot. A Pokémon azért jelent szintlépést, mert több száz órán keresztül tartó folyamatos tervezést, erőforrás-kezelést és hibajavítást igényel, nem csak egyetlen mérkőzést.
- A Gemini 3 Pro nagyjából 406 óra alatt fejezte be a Pokémon Blue-t
- A Claude Opus 4.6 több mint 500 órát és 170 000 lépést naplózott a Pokémon Red-ben
- A feladat a hosszú távú tervezési és döntéshozatali képességeket értékeli
- Twitch streamek jelenleg is valós időben közvetítik a különböző modellek előrehaladását
Miért fontos?
Az AI modellek a teszteken túlszárnyalhatják az orvosokat és jogászokat, de még mindig küzdenek az emberek számára könnyű feladatokkal. Ez emlékeztet arra, hogy a nyers intelligencia és a való világban alkalmazott érvelés két nagyon különböző dolog, ahogy az AI a valódi ágensek felé mozdul el. ---