A Haize Labs 38-szoros gyorsulást ért el az AI red teaming hatékonyságában

2024. április 8. · MI Történik? · 1 perc olvasás

A Haize Labs kutatói a Greedy Coordinate Gradient (GCG) nevű AI red teaming megközelítésre alapozva egy lényegesen gyorsabb módszert fejlesztettek ki. Az általuk készített Accelerated Coordinate Gradient (ACG) 38-szor gyorsabban fut és 4-szer kevesebb GPU memóriát igényel. A GCG egy olyan eljárás az AI rendszerek ellenséges tesztelésére (red teaming), amellyel „jailbreak” típusú parancsokat generálnak – olyan promptokat, amelyek megbízhatóan áttörik a modell biztonsági korlátait. Bár a GCG hatékony, rendkívül költséges is volt: egyetlen A100-as kártyán „akár 153 percig is eltarthat egyetlen támadás létrehozása egy olyan nehéz modell ellen, mint a Llama 2. Ez gyakorlatilag alkalmatlanná teszi a komoly, nagyszabású stressztesztekre” – írják. Az ACG lényegében sok apró fejlesztés összessége, amelyek egymásra épülve drámai teljesítményjavulást eredményeznek: „A GCG átlagosan 71 percet vesz igénybe egy támadás generálásához, míg az ACG-nek mindössze 1,86 percre van szüksége.”

38-szoros gyorsulás a támadások generálásában a standard GCG-hez képest.
4-szeresére csökkentett GPU memóriaszükséglet.
Előzmény-puffer (historical buffer) alkalmazása a hatékony támadások tárolására és újrafelhasználására.
Átgondolt inicializálás a lokális minimumok elkerülése érdekében az optimalizálás során.
Alacsony költségű leállási feltételek alkalmazása, amelyek biztosítják a támadás sikerét felesleges számítási kapacitás nélkül.

Miért fontos?

A red teaming értékes, de idő- és pénzigényes folyamat. Az automatizált ellenséges tesztelésnek olcsónak kell lennie ahhoz, hogy valóban hatékony lehessen. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az Anthropic kutatója négy kulcsfontosságú promptstratégiát vázolt fel a Claude Fable 5-höz

1 órája

Az Apple bemutatta a Siri AI funkcióit és az iOS 27-et a WWDC nyitóelőadásán

4 órája

A NASA X-59-es repülőgépe elérte a szuperszonikus sebességet, ami jelentős mérföldkő a repülésben

6 órája

Tudj meg többet

AI hanggenerálás és zeneszerzés: Útmutató a Suno, Udio és ElevenLabs használatához