AI KUTATÁS
A versbe szedett promptok sikeresen kijátsszák az AI biztonsági korlátait egy új tanulmány szerint
Az olasz Icaro Labs új kutatása rávilágított, hogy a káros kérések versbe foglalása képes megtéveszteni a vezető AI modelleket, így azok veszélyes tartalmakat generálnak. Egyes rendszerek minden egyes alkalommal bedőltek a trükknek.
- Az Icaro Lab 25 élvonalbeli modellt tesztelt olyan nagy laboratóriumoktól, mint az OpenAI, a Google és az Anthropic; azt találták, hogy a verses formátum 62%-os átlagos jailbreak sikerességi arányt ért el.
- A Google Gemini 2.5 Pro bizonyult a legsebezhetőbbnek 100%-os eredménnyel, míg az OpenAI kisebb GPT-5 nano modellje ellenállt minden verses támadási kísérletnek.
- A verses promptok olyan veszélyes témákban váltottak ki válaszokat, mint a fegyverfejlesztés, a hackelés és a pszichológiai manipuláció.
- A kutatók nem hozták nyilvánosságra a konkrét verseket, „túl veszélyesnek” nevezve azokat, annak ellenére, hogy állítólag bárki számára könnyen megalkothatók.
Miért fontos?
Az AI-biztonság egyfajta macska-egér játékká vált: a versek most csatlakoztak a szerepjátékos szcenáriókhoz, az idegen nyelvű trükkökhöz és a kódolási exploithoz a váratlan sebezhetőségek növekvő listáján. Úgy tűnik, minden javítás egy újabb kreatív megkerülő megoldást szül – és ennek a folyamatosan fejlődő problémának nincs belátható végpontja. ---