MACHINE LEARNING KUTATÁS
Stratégiai gondolkodás az LLM-eknél vs. embereknél a kő-papír-olló játékban
Bár a nagy nyelvi modellek képesek emberi módon viselkedni, a hasonlóságok gyakran csak felszínesek. Egy egyszerű stratégiai játék rávilágított a stratégiai megközelítéseik közötti egyértelmű különbségekre. Caroline Wang és kollégái (University of Texas at Austin és Google) elemezték az emberek és az LLM-ek döntéshozatali mintáit a klasszikus kő-papír-olló játék közben. Megállapították, hogy az LLM-ek olykor kifinomultabban modellezik ellenfeleiket, mint az emberek. A rögzített játékmenet alapján az LLM-ek képesek iteratív módon fejleszteni azt a kódot, amely megjósolja a játékos következő lépését. Ha a kód jelentős pontossággal jósolja meg a játékos lépéseit, feltételezhetjük, hogy a döntéshozatali algoritmusa funkcionálisan hasonlít a játékos által használthoz. Mivel a számítógépes kód értelmezhető, lehetővé válik ezen algoritmusok összehasonlítása az emberek és az LLM-ek esetében. A kísérletben a kutatók különböző LLM-eket (Gemini 2.5 Pro, Gemini 2.5 Flash, GPT-5.1 és GPT-OSS 120B) állítottak szembe 15, eltérő bonyolultságú bottal. Minden játékos lépéseit 20 játékban rögzítették, amelyek egyenként 300 egymást követő körből álltak. Korábbi kutatások hasonló adatokat szolgáltattak emberek és ugyanezen botok közötti meccsekről. A szerzők követték az AI és emberi játékosok körönkénti döntéseit, és az eredményeket (győzelem, vereség, döntetlen). Ezután az AlphaEvolve-ot használták – egy ágens-alapú módszert, amely evolúciós folyamat során optimalizálja a kódot –, hogy javítsák az egyes LLM-ek és az emberi csoport következő lépéseit megjósoló Python programokat.
- Az AlphaEvolve kezdetben egy egyszerű sablonprogrammal dolgozta fel a játékadatokat, ahol a Gemini 2.5 Flash javasolt módosításokat az egyszerűség és az értékelési valószínűség közötti egyensúlyt tartó funkció javítására.
- A kutatók minden játékoshoz a legegyszerűbb olyan programot választották ki, amely közel maximális jóslási pontosságot ért el, hogy reprezentálják az adott játékos viselkedési stratégiáját.
- A Gemini 2.5 Pro-t, Gemini 2.5 Flash-t és GPT-5.1-et reprezentáló programok szinte egyformán jól teljesítettek egymás lépéseinek megjóslásában, ami arra utal, hogy ezek a modellek hasonló stratégiákat alkalmaznak.
- A programok értelmezése azt mutatta, hogy a Gemini 2.5 Pro, Gemini 2.5 Flash és GPT-5.1 hatékonyabban követték a szekvenciális mintákat az embereknél vagy a GPT-OSS 120B-nél, több körön keresztül figyelve a lépések gyakoriságát.
- Míg az emberek és a vezető LLM-ek a bot és a játékos korábbi lépései alapján számították ki a lépések értékét, a GPT-OSS 120B kizárólag a lehetséges következő lépés alapján kalkulált.
- Az embereket és a GPT-OSS 120B-t reprezentáló kód kevésbé volt sikeres a három vezető modell megjóslásában, ami jelentős különbségeket jelez a döntéshozatali logikájukban.
Miért fontos?
Miért fontos: Bár a kutatók már találtak módszereket a neurális hálózatok viselkedésének bizonyos aspektusainak megértésére, a nagy nyelvi modellek sok szempontból még mindig „fekete dobozok”. A kód közvetlen szintetizálása az LLM viselkedéséből hatékony eszközt kínál a döntéshozatali folyamataik értelmezéséhez. ---