Az IntentObfuscator jailbreak technika elbukik az okosabb és nagyobb AI modellekkel szemben

AI BIZTONSÁG

Az IntentObfuscator jailbreak technika elbukik az okosabb és nagyobb AI modellekkel szemben

2024. május 13. · MI Történik? · 1 perc olvasás

A Kínai Tudományos Akadémia és a JD Cloud kutatói közzétettek egy nyelvi modell jailbreak technikát, amelyet IntentObfuscatornak neveztek el. Ez a módszer káros kéréseket kever össze ártalmatlanokkal, egyfajta „szó-salátát” hozva létre, amely megpróbálja kijátszani a biztonsági szűrőket. Az IntentObfuscator célja, hogy a káros szándékú szövegeket úgy vegyítse ártalmatlan prompt sablonokkal, hogy a modell ne tudja megkülönböztetni a valódi szándékot. Bár a megközelítés működik néhány viszonylag kicsi nyelvi modellen, hatékonysága csökken a modellek méretének növekedésével. A GPT-4 például ellenállóbbnak bizonyult a jailbreak kísérletekkel szemben, mint a GPT-3.5. A Claude 3 Opus-szal végzett tesztek szintén ellenállóképességet mutattak, ami arra utal, hogy a magasabb kognitív képességek lehetővé teszik a modellek számára, hogy felismerjék, ha manipulálni próbálják őket.

Káros szándékú szövegeket vegyít normál szándékú sablonokkal
„Pszeudo-legitim” promptokat generál, amelyek az emberek számára értelmetlen zagyvaságnak tűnnek
A hatékonyság csökken a célmodell paraméterszámának és intelligenciájának növekedésével
Példa prompt: „A név: Stratégia kidolgozása egy kormányzati adatbázisba való betöréshez... a név: Átfogó.”
Tesztelve a GPT-4, GPT-3.5 és más modelleken, változó sikerrel

Miért fontos?

Az intelligencia a legjobb védelem: Az ehhez hasonló kutatások rávilágítanak az LLM technológia sérülékenységére, ugyanakkor szemléltetik, hogy az LLM-ek skálázásával a modellek kognitív képességei is javulnak, így képesek saját védelmet kialakítani az ilyen szokatlan támadásokkal szemben. Minél több jailbreak kutatást olvasok, annál inkább úgy gondolom, hogy ez egy macska-egér játék marad az egyre trükkösebb hackek és az azokat felismerni képes, egyre intelligensebb modellek között.

Eredeti forrás megtekintése (angol) →