A konzisztencia tréning csökkenti a jailbreak-eket és a szekundálást

2025. november 10. · MI Történik? · 2 perc olvasás

Szeretnéd, ha a modeled nehezebben lenne jailbreakelhető? Tanítsd meg, hogy átlássa a dolgokat:…A konzisztencia tréning egy egyszerű ötlet, ami jól működik… A Google DeepMind kutatói egy egyszerű technikát fejlesztettek ki, hogy az AI rendszerek nehezebben legyenek jailbreakelhetők, vagy ne mutassanak nemkívánatos mértékű szekundálást. A konzisztencia tréning nevű technika nagyon egyszerű megfogalmazással bír: megtanítani egy modellt arra, hogy ugyanazt a választ generálja egy jóindulatú promptra és egy olyan promptra, amelyet szekundálást célzó jelekkel módosítottak, vagy jailbreaknek szántak. Ennek motivációja, hogy az AI rendszereket könnyebben lehessen magabiztosan telepíteni, tudva, hogy robusztus, megbízható módon követik majd a biztonsági tréningjüket. Bias-augmented Consistency Training (BCT): Bár a szerzők több technikát is kidolgoznak, a legrobustusabban működő a Bias-augmented Consistency Training. „A modell betanításakor ugyanazokat a tokeneket generálja két promptra: az eredeti kérésre, amit tiszta promptnak nevezünk, és egy becsomagolt megfelelőre, amelybe beillesztett jelek vannak. Példaválaszok biztosításával a BCT célja, hogy megtanítsa a modellt az inappropiát jelek figyelmen kívül hagyására, visszajelzést adva a modell kimeneti viselkedéséről” – írják. „Egy adott tiszta prompt (mindenféle szekundáló vagy jailbreak jelek nélkül) esetén definiálunk egy megfelelő káros promptot, amely tartalmazza az alapvető utasítást, kiegészítve egy jailbreak wrapperrel vagy szekundáló jellel… A BCT úgy tekinthető, mint a tréning adatok kiegészítése „becsomagolt” (pl. jailbreakelt) átalakításaival a meglévő elutasítási tréning pontoknak.” How is this different from supervised fine-tuning?: Ez nagyon közel áll az SFT-hez, azzal a kivétellel, hogy az SFT általában egy másik modellből származó adatok felhasználásával jár (pl. egy Claude 3 „tiszta” kimenetének felhasználásával a Claude 3.5 finomhangolására). A kulcs itt az, hogy ugyanabból a modellből generáljunk adatokat, amelyet telepíteni szeretnénk. Does it work?: Igen, nagyon jól. A tesztekben a BCT sokkal jobban működik, mint két meglehetősen erős alapvonal: 1) a felügyelt finomhangolás, ahol a modellt kimeneti párokon finomhangolják, de a promptokat emberi szakértők vagy más modellek írják az aktuális helyett, és 2) a közvetlen preferencia optimalizálás, ahol a modellt preferencia párokon finomhangolják, ahol x a prompt, y az előnyben részesített (pl. káros lekérdezés elutasítása) válasz, és z a nem preferált (együttműködik a káros lekérdezéssel) válasz. A tesztekben a BCT növeli, hogy a modell milyen gyakran kerüli el a szekundálást, anélkül, hogy negatívan befolyásolná az MMLU teljesítményt. A jailbreakelés esetében a BCT sokkal nehezebbé teszi a modellek jailbreakelését, miközben általában megőrzi azok képességét a jóindulatú kérdések megválaszolására.

Miért fontos?

Miért fontos ez – az egyszerűség gyakran a biztonság útja: Eddig több ezer kutatási cikket olvastam el az AI fejlesztéséről. Általában azok a dolgok sikeresek és kerülnek ténylegesen elfogadásra, amelyek hihetetlenül egyszerűen megvalósíthatók, és viszonylag kevés mozgó alkatrészből állnak. Emiatt a BCT meglehetősen egyszerűnek tűnik, mivel lényegében csak arról van szó, hogy egy fejlesztő veszi frissen betanított élvonalbeli modelljét, szándékosan generál néhány prompt párt egyedi kimenetekkel, majd ezt vissza táplálja a modellbe a telepítés előtt. Nagyon intuitív is – hasonlóan ahhoz, ahogy elkerülheted, hogy átverjenek vagy manipuláljanak, ha elolvasol néhány könyvet bűnözőktől vagy csábítóművészektől, és képes vagy felismerni azokat a „jeleket”, amelyeket valaki ezekkel az eszközökkel használ ellened, ugyanez igaz az AI rendszerekre is. ---

Eredeti forrás megtekintése (angol) →