AI RED TEAMING
A Haize Labs 38-szoros gyorsulást ért el az AI red teaming hatékonyságában
A Haize Labs kutatói a Greedy Coordinate Gradient (GCG) nevű AI red teaming megközelítésre alapozva egy lényegesen gyorsabb módszert fejlesztettek ki. Az általuk készített Accelerated Coordinate Gradient (ACG) 38-szor gyorsabban fut és 4-szer kevesebb GPU memóriát igényel. A GCG egy olyan eljárás az AI rendszerek ellenséges tesztelésére (red teaming), amellyel „jailbreak” típusú parancsokat generálnak – olyan promptokat, amelyek megbízhatóan áttörik a modell biztonsági korlátait. Bár a GCG hatékony, rendkívül költséges is volt: egyetlen A100-as kártyán „akár 153 percig is eltarthat egyetlen támadás létrehozása egy olyan nehéz modell ellen, mint a Llama 2. Ez gyakorlatilag alkalmatlanná teszi a komoly, nagyszabású stressztesztekre” – írják. Az ACG lényegében sok apró fejlesztés összessége, amelyek egymásra épülve drámai teljesítményjavulást eredményeznek: „A GCG átlagosan 71 percet vesz igénybe egy támadás generálásához, míg az ACG-nek mindössze 1,86 percre van szüksége.”
- 38-szoros gyorsulás a támadások generálásában a standard GCG-hez képest.
- 4-szeresére csökkentett GPU memóriaszükséglet.
- Előzmény-puffer (historical buffer) alkalmazása a hatékony támadások tárolására és újrafelhasználására.
- Átgondolt inicializálás a lokális minimumok elkerülése érdekében az optimalizálás során.
- Alacsony költségű leállási feltételek alkalmazása, amelyek biztosítják a támadás sikerét felesleges számítási kapacitás nélkül.
Miért fontos?
A red teaming értékes, de idő- és pénzigényes folyamat. Az automatizált ellenséges tesztelésnek olcsónak kell lennie ahhoz, hogy valóban hatékony lehessen. ---