MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Kanári szavak és válaszelemzés használata a prompt szivárgás megelőzésére

A rendszerszintű prompt szivárgásának észlelésére és megelőzésére a fejlesztők az adatbiztonságból ismert „kanári szó” (canary word) koncepcióját alkalmazhatják. Ez egy egyedi, véletlenszerűen generált szó, amelyet hozzáadnak a rendszerszintű prompthoz, és amelynek soha nem szabadna megjelennie egy normál válaszban. Ha a szó megjelenik az LLM kimenetében, az azt jelzi, hogy a prompt kiszivárgott. Emellett a fejlesztők kisebb, költséghatékonyabb modellekhez, például a GPT-3.5 Turbo-hoz irányíthatják a válaszokat, hogy ellenőrizzék, a kimenet tartalmaz-e jelentős részeket az eredeti rendszerszintű promptból, mielőtt véglegesítenék a választ a felhasználó számára.
Miért fontos?

A rendszerszintű prompt szivárgása útmutatást ad a támadóknak az alkalmazás sikeres eltérítéséhez, így annak védelme az alapvető védelmi vonal részét képezi. ---

Eredeti forrás megtekintése (angol) →