MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Kutatások szerint a finomhangolás könnyen megkerülheti a GPT-4 biztonsági korlátait

Egy új kutatási tanulmány jelentős sebezhetőséget mutatott ki a nagy nyelvi modellek biztonsági összehangolásában. A kutatók megállapították, hogy hatékonyan „visszafordíthatják” az RLHF (emberi visszajelzésen alapuló megerősítő tanulás) védelmeket az olyan modelleken, mint a GPT-4, azáltal, hogy egy nagyon kis készletnyi ellenséges példán finomhangolják őket. Ez lehetővé tette a modellek számára, hogy káros tartalmakat generáljanak, beleértve az illegális tevékenységekre vonatkozó utasításokat is, az eredeti biztonsági képzésük ellenére. A tanulmány feltárta, hogy mindössze 10-100 rosszindulatú tanítási példa elegendő volt a modell biztonsági viselkedésének teljes kompromittálásához. Ez a felfedezés jelentős aggodalmakat vet fel az erős, zárt forráskódú modellekhez biztosított finomhangolási API-k biztonságával kapcsolatban, mivel azt sugallja, hogy a biztonsági összehangolás sokkal törékenyebb, mint korábban hitték.
Miért fontos?

Miért fontos: Ez a kutatás kihívás elé állítja a biztonsági összehangolás jelenlegi iparági szabványait, azt sugallva, hogy a finomhangolási hozzáférés alapvető biztonsági kockázatot jelenthet az AI szolgáltatók számára. ---

Eredeti forrás megtekintése (angol) →