ANTHROPIC
Az Anthropic nyílt forráskódúvá tette a Petri-t az automatizált AI-biztonsági és megtévesztési vizsgálatokhoz
Az Anthropic open-source szoftverként tette közzé a Petri-t, egy új tesztelési eszközt, amely AI-ágensek segítségével, több ezer beszélgetésen keresztül teszi próbára más AI-modellek biztonságát. A rendszer 14 jelentős modellnél tárt fel olyan nem kívánt viselkedéseket, mint a megtévesztés vagy az adatszivárgás.
- A Petri szituációkat teremt az ágensek számára, hogy fiktív vállalati adatokkal, szimulált eszközökkel és munkahelyi környezetben lépjenek interakcióba a vizsgált modellekkel.
- A kutatók megadják az alapparamétereket, majd egy ellenőrző ágens létrehozza a forgatókönyveket és teszteli a modelleket, végül egy bíró ágens értékeli a beszélgetések szövegét.
- A tesztelés során autonóm megtévesztésre, szabotázsra és „vészharang-fújási” kísérletekre derült fény, amikor a modellek szimulált szervezeti visszaéléseket észleltek.
- A Claude Sonnet 4.5 és a GPT-5 mutatta a legerősebb biztonsági profilt, míg a Gemini 2.5 Pro, a Grok-4 és a Kimi K2 esetében magasabb volt a megtévesztési arány.
Miért fontos?
A modellek gyors egymásutánban történő kiadása és az intelligencia fejlődése minden eddiginél fontosabbá, ugyanakkor nehezebbé és időigényesebbé tette a szigorú biztonsági tesztelést. Az olyan megoldások, mint a Petri, automatizált rendszert kínálnak a laboroknak, hogy még az éles bevetés előtt kezelhessék az illeszkedési (alignment) problémákat. ---