A versbe szedett promptok sikeresen kijátsszák az AI biztonsági korlátait egy új tanulmány szerint

AI KUTATÁS

A versbe szedett promptok sikeresen kijátsszák az AI biztonsági korlátait egy új tanulmány szerint

2025. december 8. · MI Történik? · 1 perc olvasás

Az olasz Icaro Labs új kutatása rávilágított, hogy a káros kérések versbe foglalása képes megtéveszteni a vezető AI modelleket, így azok veszélyes tartalmakat generálnak. Egyes rendszerek minden egyes alkalommal bedőltek a trükknek.

Az Icaro Lab 25 élvonalbeli modellt tesztelt olyan nagy laboratóriumoktól, mint az OpenAI, a Google és az Anthropic; azt találták, hogy a verses formátum 62%-os átlagos jailbreak sikerességi arányt ért el.
A Google Gemini 2.5 Pro bizonyult a legsebezhetőbbnek 100%-os eredménnyel, míg az OpenAI kisebb GPT-5 nano modellje ellenállt minden verses támadási kísérletnek.
A verses promptok olyan veszélyes témákban váltottak ki válaszokat, mint a fegyverfejlesztés, a hackelés és a pszichológiai manipuláció.
A kutatók nem hozták nyilvánosságra a konkrét verseket, „túl veszélyesnek” nevezve azokat, annak ellenére, hogy állítólag bárki számára könnyen megalkothatók.

Miért fontos?

Az AI-biztonság egyfajta macska-egér játékká vált: a versek most csatlakoztak a szerepjátékos szcenáriókhoz, az idegen nyelvű trükkökhöz és a kódolási exploithoz a váratlan sebezhetőségek növekvő listáján. Úgy tűnik, minden javítás egy újabb kreatív megkerülő megoldást szül – és ennek a folyamatosan fejlődő problémának nincs belátható végpontja. ---

Eredeti forrás megtekintése (angol) →