Kanári szavak és válaszelemzés használata a prompt szivárgás megelőzésére

2024. január 27. · MI Történik? · 1 perc olvasás

A rendszerszintű prompt szivárgásának észlelésére és megelőzésére a fejlesztők az adatbiztonságból ismert „kanári szó” (canary word) koncepcióját alkalmazhatják. Ez egy egyedi, véletlenszerűen generált szó, amelyet hozzáadnak a rendszerszintű prompthoz, és amelynek soha nem szabadna megjelennie egy normál válaszban. Ha a szó megjelenik az LLM kimenetében, az azt jelzi, hogy a prompt kiszivárgott. Emellett a fejlesztők kisebb, költséghatékonyabb modellekhez, például a GPT-3.5 Turbo-hoz irányíthatják a válaszokat, hogy ellenőrizzék, a kimenet tartalmaz-e jelentős részeket az eredeti rendszerszintű promptból, mielőtt véglegesítenék a választ a felhasználó számára.

Implementálja a „kanári szó” technikát olyan csomagok használatával, mint a Rebuff, hogy megjelölje, ha a rendszerszintű promptból származó egyedi karakterláncok megjelennek a kimenetekben.
Használjon egy másodlagos, gyorsabb LLM-et a fő modell válaszának elemzésére, hogy észlelje a rendszerszintű prompt expozíciójának jeleit.
Felhasználói alkalmazások esetén jelenítse meg azonnal a választ, de vonja vissza, ha a generálás utáni ellenőrzés rosszindulatú tevékenységet jelez.
A biztonság, a latencia és a költségek egyensúlyának megőrzése érdekében a többkörös beszélgetéseket csak időszakosan, néhány üzenetenként ellenőrizze.
Induljon ki abból, hogy a rosszindulatú felhasználók hamar felfedik szándékaikat, így a munkamenet elején agresszívabb szűrés alkalmazható.

Miért fontos?

A rendszerszintű prompt szivárgása útmutatást ad a támadóknak az alkalmazás sikeres eltérítéséhez, így annak védelme az alapvető védelmi vonal részét képezi. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Kutatók kártékony WhatsApp üzenetekkel vették át az irányítást a Google Gemini felett

2026. június 4.

Miért nehezebb az automatizált AI-felügyelet és illesztés a vártnál?

2026. június 1.

Hackerek emberi fül számára hallhatatlan hangokkal térítik el az AI hangasszisztenseket

2026. május 26.

Tudj meg többet

AI biztonság: 7 dolog amit SOHA ne ossz meg egy chatbottal

NotebookLM használata: Így alakítsd át a jegyzeteidet okos asszisztenssé