AI agentek auditálják a fine-tuning API-kat rosszindulatú felhasználás szempontjából

AI ETIKA

AI agentek auditálják a fine-tuning API-kat rosszindulatú felhasználás szempontjából

2025. október 27. · MI Történik? · 2 perc olvasás

A MATS program, a Thinking Machines Lab és az Anthropic kutatói bemutatták, hogyan lehet AI-t használni a fine-tuning rendszerek monitorozására a potenciális rosszindulatú felhasználás szempontjából. Ez egy fontos probléma – a fine-tuning API-k lehetővé teszik az emberek számára, hogy egy alapvető base modellből (pl. egy GPT, Claude vagy Gemini modellből) kiindulva egy adott dataset-hez hangolják azt. Ez javítja a rendszer teljesítményét, de magában hordozza azt a kockázatot, hogy az emberek rosszindulatú célokra (pl. biológiai fegyverekhez) készítenek modellt. A szolgáltatók ma úgy kezelik ezt, hogy classifier-eket futtatnak a fine-tuning API-ikon, de ez általában csak a nyilvánvaló támadásokat állítja meg. Az a kérdés, amellyel a kutatók itt foglalkoznak, hogy rájöhetünk-e, hogyan lehet észrevenni a biztonsági intézkedéseket megkerülő, ravaszabb kísérleteket egy „auditáló agent” segítségével, és a válasz: igen! Valamelyest! Néhány fontos megkötéssel.

Az itt vizsgált támadástípusok a prompt alapú jailbreak-ektől, a covert fine-tuning-ig terjednek, ahol a modellnek egy titkosírást tanítunk, amellyel aztán beszélünk hozzá, hogy rossz dolgokat tegyen, egészen az olyan jelenségekig, mint az emergent misalignment vagy a subliminal learning.
Ezeket a modelleket GPT modellekből fine-tune-olták az OpenAI fine-tuning API-ján keresztül, és a támadások kikerülik a meglévő védelmi intézkedéseket.
Az auditáló agent egy promptolt LLM (Sonnet 4), amely hat eszközhöz fér hozzá.
Ezek az eszközök lehetővé teszik számára dataset-ek ellenőrzését, mint például a fine-tuningra feltöltötteket; modellek lekérdezését, beleértve a base modelleket és a fine-tune-oltakat; benchmark-ok futtatását; adatok összefoglalását; Python végrehajtását; és benchmark-ok módosítását, hogy futtathassa azokat olyan modellek ellen, amelyeken eszközeivel beavatkozott.
Ezt használva az auditor modell „a rendszer és a felhasználói prompt-ok utasítása szerint vizsgálatot végez, és egy bizonyítékokkal alátámasztott kockázati pontszámot ad ki 0-10-ig, ahol a 10-es kockázati pontszám rendkívül veszélyes modellt jelez.”
„Detektorunk 56,2%-os észlelési arányt ért el 1%-os téves riasztási arány mellett 260 audit során (20 független audit minden fine-tune-hoz) a legjobban teljesítő eszközkonfigurációval” – írják a szerzők.
Bár az 56,2% csupán egy pénzfeldobásnak felel meg, mégis ígéretes – és valószínű, hogy további finomítással ez a szám jelentősen növekedhet.

Miért fontos?

Lényegében ez a tanulmány megpróbálja automatizálni azt, amit egy okos emberi nyomozó tenne. Ahelyett, hogy egy classifier-t képezne ismert támadások tömegén, inkább egy kortárs, eszközökkel felszerelt frontier modell intelligenciáját próbálja kihasználni. Az a tény, hogy a dobozból kivéve, lényegében tuning nélkül ~50%-ban működik, lenyűgöző – az az érzésem, hogy a frontier modellekből kiépített autonóm, paranoiás nyomozók lehetnek a kulcsa ennek a macska-egér játéknak. ---

Eredeti forrás megtekintése (angol) →