AI BIZTONSÁG
Kutatások szerint a finomhangolás könnyen megkerülheti a GPT-4 biztonsági korlátait
Egy új kutatási tanulmány jelentős sebezhetőséget mutatott ki a nagy nyelvi modellek biztonsági összehangolásában. A kutatók megállapították, hogy hatékonyan „visszafordíthatják” az RLHF (emberi visszajelzésen alapuló megerősítő tanulás) védelmeket az olyan modelleken, mint a GPT-4, azáltal, hogy egy nagyon kis készletnyi ellenséges példán finomhangolják őket. Ez lehetővé tette a modellek számára, hogy káros tartalmakat generáljanak, beleértve az illegális tevékenységekre vonatkozó utasításokat is, az eredeti biztonsági képzésük ellenére.
A tanulmány feltárta, hogy mindössze 10-100 rosszindulatú tanítási példa elegendő volt a modell biztonsági viselkedésének teljes kompromittálásához. Ez a felfedezés jelentős aggodalmakat vet fel az erős, zárt forráskódú modellekhez biztosított finomhangolási API-k biztonságával kapcsolatban, mivel azt sugallja, hogy a biztonsági összehangolás sokkal törékenyebb, mint korábban hitték.
- Ellenséges finomhangolást alkalmaztak a GPT-4 és a Llama 2 biztonsági szűrőinek megkerülésére
- Bebizonyították, hogy a jelenlegi RLHF összehangolás nem javítja ki véglegesen a modell viselkedését
- Kis adathalmazok (akár 10 példa) elegendőek voltak a „jailbreak” kiváltásához
- Rávilágít az „alignment tax” problémájára és a nyílt súlyú modellek biztosításának nehézségeire
- Megkérdőjelezi a finomhangolás-mint-szolgáltatás (fine-tuning-as-a-service) biztonságát az LLM-ek esetében
Miért fontos?
Miért fontos: Ez a kutatás kihívás elé állítja a biztonsági összehangolás jelenlegi iparági szabványait, azt sugallva, hogy a finomhangolási hozzáférés alapvető biztonsági kockázatot jelenthet az AI szolgáltatók számára. ---