7 módszer az LLM alkalmazások védelmére a prompt injection és jailbreak támadások ellen

AI BIZTONSÁG

7 módszer az LLM alkalmazások védelmére a prompt injection és jailbreak támadások ellen

2024. január 27. · MI Történik? · 2 perc olvasás

A nyelvi modellek és az azokkal működő alkalmazások feltörése egy végtelen tánc a védelmi mechanizmusok bevetése és az egyre zseniálisabb támadók között. Minden fejlesztőnek, aki LLM-alapú alkalmazást indított, szembe kell néznie a kihívással: hogyan akadályozza meg, hogy a felhasználók „feltörjék” (jailbreak) azt a saját akaratuk szerint, akár haszonszerzés, akár szórakozás céljából. Ha egy AI-alapú app rasszista szöveget generál, az károsíthatja a hírnevet és a márkát, míg ha ráveszik az appot jogosulatlan visszatérítések vagy kedvezmények jóváhagyására, az anyagi veszteséget okoz. A prompt injection támadások akkor fordulnak elő, amikor a felhasználók megkerülik a nyelvi modell programozását azáltal, hogy természetes nyelven alternatív utasításokat adnak; ez a sebezhetőség különösen riasztó a bizalmas információkat kezelő AI személyi asszisztenseknél. Bizonyos támadások megkerülik a természetes nyelvet olyan karakterek használatával, amelyek rejtélyesnek tűnnek, mégis mágikus varázsigeként hatnak a modellre, tiltott utakra terelve azt. Ezek a támadások jellemzően a system promptok kiszivárogtatását, az alkalmazás céljának megváltoztatását vagy érzékeny adatok kinyerését célozzák a tanítóadatokból vagy belső adatbázisokból. Ahogy a nyelvi modellek egyre elterjedtebbé válnak, nő az igény a robusztus biztonsági intézkedésekre ezen fejlődő vektorok ellen.

Alkalmazzunk „kanári szavakat” – egyedi, véletlenszerűen generált karakterláncokat a system promptokban –, hogy észleljük, ha érzékeny utasítások szivárognak ki a válaszokban.
Irányítsuk a prompteket és válaszokat kisebb, költséghatékony modellekhez, például a GPT-3.5 Turbo-hoz, hogy ellenőrizzük, a kimenet tartalmaz-e jelentős részeket a system promptból.
Használjunk „visszavonási” stratégiát a felhasználói alkalmazásoknál: jelenítsük meg a választ azonnal az alacsony késleltetés érdekében, de vonjuk vissza, ha a háttérben futó biztonsági ellenőrzés rosszindulatú szándékot észlel.
Korlátozzuk a felhasználói bevitel hosszát az átlagos lekérdezési küszöbértékek alapján, hogy megakadályozzuk a bonyolult, hosszú injection kísérleteket.
Korlátozzuk a bevitelt kizárólag alfanumerikus karakterekre, blokkolva a speciális vagy láthatatlan karaktereket, amelyeket gyakran használnak a kifinomult jailbreak „varázsigékben”.
Alkalmazzuk a legkisebb jogosultság elvét: lássuk el az LLM-eket dedikált API tokenekkel és korlátozott olvasási/írási jogosultságokkal a háttérrendszerekhez.
Használjunk metaadat-szűrést a RAG alkalmazásokban, például felhasználói azonosító szerinti szűrést a vektor-adatbázisokban, biztosítva, hogy a modell csak olyan adatokat hívjon le, amelyekhez az adott felhasználónak jogosultsága van.

Miért fontos?

Az LLM biztonság tétje magas; a sikeres jailbreak támadások hírnévromboló kimenetekhez, pénzügyi csalásokhoz és privát tanítóadatok kinyeréséhez vezethetnek. Ahogy az AI egyre elterjedtebbé válik, a robusztus védelmi mechanizmusok kiépítése kritikus fontosságú a felhasználói bizalom és az üzembiztonság fenntartásához. ---

Eredeti forrás megtekintése (angol) →