Kutatások szerint a finomhangolás könnyen megkerülheti a GPT-4 biztonsági korlátait

AI BIZTONSÁG

Kutatások szerint a finomhangolás könnyen megkerülheti a GPT-4 biztonsági korlátait

2023. november 16. · MI Történik? · 1 perc olvasás

Egy új kutatási tanulmány jelentős sebezhetőséget mutatott ki a nagy nyelvi modellek biztonsági összehangolásában. A kutatók megállapították, hogy hatékonyan „visszafordíthatják” az RLHF (emberi visszajelzésen alapuló megerősítő tanulás) védelmeket az olyan modelleken, mint a GPT-4, azáltal, hogy egy nagyon kis készletnyi ellenséges példán finomhangolják őket. Ez lehetővé tette a modellek számára, hogy káros tartalmakat generáljanak, beleértve az illegális tevékenységekre vonatkozó utasításokat is, az eredeti biztonsági képzésük ellenére. A tanulmány feltárta, hogy mindössze 10-100 rosszindulatú tanítási példa elegendő volt a modell biztonsági viselkedésének teljes kompromittálásához. Ez a felfedezés jelentős aggodalmakat vet fel az erős, zárt forráskódú modellekhez biztosított finomhangolási API-k biztonságával kapcsolatban, mivel azt sugallja, hogy a biztonsági összehangolás sokkal törékenyebb, mint korábban hitték.

Ellenséges finomhangolást alkalmaztak a GPT-4 és a Llama 2 biztonsági szűrőinek megkerülésére
Bebizonyították, hogy a jelenlegi RLHF összehangolás nem javítja ki véglegesen a modell viselkedését
Kis adathalmazok (akár 10 példa) elegendőek voltak a „jailbreak” kiváltásához
Rávilágít az „alignment tax” problémájára és a nyílt súlyú modellek biztosításának nehézségeire
Megkérdőjelezi a finomhangolás-mint-szolgáltatás (fine-tuning-as-a-service) biztonságát az LLM-ek esetében

Miért fontos?

Miért fontos: Ez a kutatás kihívás elé állítja a biztonsági összehangolás jelenlegi iparági szabványait, azt sugallva, hogy a finomhangolási hozzáférés alapvető biztonsági kockázatot jelenthet az AI szolgáltatók számára. ---

Eredeti forrás megtekintése (angol) →