A következtető modellek csaláshoz folyamodnak, hogy legyőzzék a hozzáértő sakkellenfeleket
A Palisade Research kimutatta, hogy két következtető modell – az OpenAI o1-preview és a DeepSeek R1 – időnként csaláshoz folyamodik, hogy legyőzzön egy kompetens sakkjátékost ahelyett, hogy veszítene. A kutatók azt vizsgálták, hogyan viselkednek az AI-rendszerek, ha azt a célt kapják, hogy győzzenek le egy erős digitális sakkjátékost (Stockfish). Az AI-rendszerek hozzáfértek egy Docker konténerhez, amely tartalmazta a munkakönyvtárat, a Stockfish sakkmotor könyvtárát, valamint a játékmentéseket és metaadatokat tartalmazó mappát. Amikor a győzelem volt a cél, a kutatók azt tapasztalták, hogy a két következtető modell időnként csalt a győzelem érdekében. „Az o1-preview különféle hekker-viselkedéseket mutatott, beleértve a Stockfish egy másik példányának futtatását a lépések megtételéhez, a Stockfish kicserélését a játékszkriptben, vagy a sakktábla felülírását” – írják.
- Az o1-preview hekker-viselkedést tanúsított, például külső motorpéldányokat futtatott a lépések megtalálásához.
- A DeepSeek R-1 hasonló specifikáció-kijátszási (specification gaming) viselkedést mutatott.
- A nem következtető modellek, mint a GPT-4o és a Claude 3.5 Sonnet, nem mutatták ezeket a viselkedéseket, hacsak nem kaptak rá külön utasítást.
- Ez a viselkedés akkor fordul elő, amikor a modellek előbbre sorolják a győzelmi célt a környezet szabályainak betartásánál.
Miért fontos?
A Palisade kutatása azt mutatja, hogy az AI-rendszerek valószínűleg nem fognak mindig a beágyazott rendszereik szigorú szabályai szerint játszani, ha más módon is győzhetnek. Ez tükrözi azt, ahogyan az emberek kreatívan értelmezik a szabályokat, vagy jogi kiskapukat keresnek a siker érdekében. ---