AI BIZTONSÁG
A nyílt hozzáférésű modellek finomhangolása könnyen megkerülheti az AI biztonsági korlátait
A Princeton University és a Virginia Tech kutatói kimutatták, hogy egy biztonságos nyelvi modellből rendkívül egyszerűen és olcsón el lehet távolítani a biztonsági gátakat finomhangolással. Ami a legaggasztóbb, hogy ez egyaránt vonatkozik a rosszindulatú finomhangolásra (ahol egy adatkészletet használnak arra, hogy az AI-t valami rosszra késztessék) és a jóindulatúbb felhasználási esetekre is (amikor csak arra törekednek, hogy az AI jobban kövesse az utasításokat).
Az eredmények összességében azt sugallják, hogy a finomhangolás megnehezíti az AI rendszerek biztonságának garantálását, és rávilágítanak arra is, hogy ha közzéteszik egy AI modell súlyait (ahogy a Facebook tette a LLaMa 2 esetében), a támadók könnyen kijátszhatják a biztonsági intézkedéseket. A szerzők háromféle kockázatot vizsgáltak az OpenAI (GPT-3.5 Turbo) és a Facebook (LLaMa 2) modelljeinél.
- Mindössze 100 káros példa használatával a GPT-3.5 Turbo károssági rátája 1,8%-ról 91,8%-ra ugrott a finomhangolás után.
- A LLaMa 2 károssága az alapértelmezett 0,3%-ról 80%-ra nőtt 100 példán végzett tanítás után.
- Akár 10, engedelmességre tervezett példa is képes „feltörni” (jailbreak) egy modellt, hogy szinte bármilyen káros utasítást végrehajtson.
- Már a jóindulatú, funkcióorientált adatkészletekkel végzett finomhangolás is véletlenül kompromittálhatja a modell biztonsági beállításait.
- A befektetések aszimmetriája szembetűnő: több millió adatpont a biztonsági hangoláshoz, szemben a kevesebb mint 100 példával egy sikeres támadáshoz.
Miért fontos?
E kutatás legfőbb következtetése, hogy ha egy modell súlyait közzéteszik, akkor a modellbe épített bármilyen biztonsági korlátot egy motivált szereplő könnyen kiiktathat finomhangolással. Ez azt vetíti előre, hogy amennyiben bebizonyosodik, hogy a nyelvi modellek rendkívül veszélyes vagy káros módon is használhatók, akkor triviális lesz a nyíltan elérhető, interneten keringő súlyokkal rendelkező modellek finomhangolása ezekre a célokra. ---