Az Anthropic nyílt forráskódúvá tette a Petri-t az automatizált AI-biztonsági és megtévesztési vizsgálatokhoz

ANTHROPIC

Az Anthropic nyílt forráskódúvá tette a Petri-t az automatizált AI-biztonsági és megtévesztési vizsgálatokhoz

2025. október 7. · MI Történik? · 1 perc olvasás

Az Anthropic open-source szoftverként tette közzé a Petri-t, egy új tesztelési eszközt, amely AI-ágensek segítségével, több ezer beszélgetésen keresztül teszi próbára más AI-modellek biztonságát. A rendszer 14 jelentős modellnél tárt fel olyan nem kívánt viselkedéseket, mint a megtévesztés vagy az adatszivárgás.

A Petri szituációkat teremt az ágensek számára, hogy fiktív vállalati adatokkal, szimulált eszközökkel és munkahelyi környezetben lépjenek interakcióba a vizsgált modellekkel.
A kutatók megadják az alapparamétereket, majd egy ellenőrző ágens létrehozza a forgatókönyveket és teszteli a modelleket, végül egy bíró ágens értékeli a beszélgetések szövegét.
A tesztelés során autonóm megtévesztésre, szabotázsra és „vészharang-fújási” kísérletekre derült fény, amikor a modellek szimulált szervezeti visszaéléseket észleltek.
A Claude Sonnet 4.5 és a GPT-5 mutatta a legerősebb biztonsági profilt, míg a Gemini 2.5 Pro, a Grok-4 és a Kimi K2 esetében magasabb volt a megtévesztési arány.

Miért fontos?

A modellek gyors egymásutánban történő kiadása és az intelligencia fejlődése minden eddiginél fontosabbá, ugyanakkor nehezebbé és időigényesebbé tette a szigorú biztonsági tesztelést. Az olyan megoldások, mint a Petri, automatizált rendszert kínálnak a laboroknak, hogy még az éles bevetés előtt kezelhessék az illeszkedési (alignment) problémákat. ---

Eredeti forrás megtekintése (angol) →