AI KUTATÁS
Az LLM-ek alulmúlják az emberi teljesítményt az új játék benchmarkban
Az MIT, a Harvard, a Brit Kolumbiai Egyetem, a Princetoni Egyetem, a Cambridge-i Egyetem és a Valènciai Műszaki Egyetem kutatói létrehozták és kiadták az AI GAMESTORE-t, egy benchmarkot, amely azt teszteli, mennyire jól teljesítenek az AI-k az emberekhez képest az egyszerű webes játékok játszásában. Az eredmények meglehetősen elítélőek az AI rendszerekre nézve, mivel „a state-of-the-art modellek átlagosan az emberi baseline kevesebb mint 30%-át érik el, miközben 15-20-szor több időt igényelnek a compute-hoz, mint az emberek”.
- Mi az AI GAMESTORE: Az AI GAMESTORE 100 játékból áll, amelyek népszerű játékok simplified és recreated verziói. Az AI GAMESTORE-t a szerzők 7500 játékból samplingjével építették fel az App Store-ból, majd csak azokat szűrték le, amelyeknek 10 000+ review-juk és 4,5+ ratingjük volt. After this, further filtered a játékokat a Gemini Flash 2.5 segítségével, amely assessed 1) whether a játékok játszhatók-e within a few minutes, 2) can be built in p5.js, 3) can have a quantifiable way of viewing performance, és 4) do not require extensive game-specific knowledge-et (e.g., poker).
- Az AI játékokat készít az AI tesztelésére: Ezt követően a Claude 4.5 Sonnet-et használják a descriptionök és other data olvasására, hogy minden játékból simplified verziót készítsenek p5.js-ben, majd ezt a játékot testedelik for playability, majd refinedelik egy human playing the game-mel és iteratively promptingolva egy LLM-et to improve it. „Each refinement step takes about 2 minutes. On average, this process took 4.7 refinement stepeket for all 100 generated games” – írják. „The end-to-end process of generating és refining a new game with human-in-the-loop can be completed in approximately 30 minutes on average”.
- Készségek címkézése: Minden finalized játékot emberek címkéznek, particular emphasis-sel a types of cognitive demand-ra, amit a játékok entail. Ezek a címkék a következők: VP = Visual Processing; ST = Spatial-temporal Coordination; ME = Memory; PL = Planning; WM = World Model Learning; PH = Physical Reasoning; SO = Social Reasoning.
- A legmodernebb LLM-ek nagyon rosszul teljesítenek ebben: A szerzők roughly ~100 human teljesítményét hasonlítják össze several cutting edge LLM teljesítményével a corpuson. A vizsgált LLM-ek included: GPT-5.2, GPT-5-Mini, Gemini-2.5-Flash, Claude-Opus-4.5, Qwen-VL-32B és LLama-4-Maverick. „While the evaluated models demonstrate the ability to navigate és interact with most game environment-ekkel, a substantial performance gap remains between AI agentek és human participantok” – írják a kutatók. „State-of-the-art modellek, like GPT-5.2, GEMINI-2.5-PRO és CLAUDE-OPUS-4.5, mind achieve geometric mean score-okat of less than 10% of the human baseline”. És it gets worse the more you look: Az LLM-ek also playing vannak with advantages, amiket humans don’t get – each human got 120 seconds to play each game, while each LLM got the same time, but they’re so bad at vision és low-latency control, hogy a kutatók gave them a crutch: „We pause the game every second to query the model to elicit five lists of actionöket to perform in the next second, with each action list corresponding to a 0.2 second segment of gameplay. Upon receiving the model response-t, the game is resumed és the actionök are applied. The loop continues until the game is won or it reaches 2 minutes of game play (120 API calls). When you factor this in, the modellek look worse than humans on this dimension of time: „This is because the modellek spend a few minutes thinking, in addition to typically a few seconds of response latency per query; as a result, many modellek spend at least 20 minutes on the game, while humans play the games within 2 minutes.”
Miért fontos?
Miért fontos ez – this is both an interesting benchmark, és a clever way to generate more benchmarkokat in the future: A GAMESTORE feels like a promising benchmark, especially for modern LLM-ek, amelyek wrap in visual capabilities, as well as an inherently clever way to use AI-kat to bootstrap the creation of new environmentekben, amikben to train AI systems in.