MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

AI agentek auditálják a fine-tuning API-kat rosszindulatú felhasználás szempontjából

A MATS program, a Thinking Machines Lab és az Anthropic kutatói bemutatták, hogyan lehet AI-t használni a fine-tuning rendszerek monitorozására a potenciális rosszindulatú felhasználás szempontjából. Ez egy fontos probléma – a fine-tuning API-k lehetővé teszik az emberek számára, hogy egy alapvető base modellből (pl. egy GPT, Claude vagy Gemini modellből) kiindulva egy adott dataset-hez hangolják azt. Ez javítja a rendszer teljesítményét, de magában hordozza azt a kockázatot, hogy az emberek rosszindulatú célokra (pl. biológiai fegyverekhez) készítenek modellt. A szolgáltatók ma úgy kezelik ezt, hogy classifier-eket futtatnak a fine-tuning API-ikon, de ez általában csak a nyilvánvaló támadásokat állítja meg. Az a kérdés, amellyel a kutatók itt foglalkoznak, hogy rájöhetünk-e, hogyan lehet észrevenni a biztonsági intézkedéseket megkerülő, ravaszabb kísérleteket egy „auditáló agent” segítségével, és a válasz: igen! Valamelyest! Néhány fontos megkötéssel.
Miért fontos?

Lényegében ez a tanulmány megpróbálja automatizálni azt, amit egy okos emberi nyomozó tenne. Ahelyett, hogy egy classifier-t képezne ismert támadások tömegén, inkább egy kortárs, eszközökkel felszerelt frontier modell intelligenciáját próbálja kihasználni. Az a tény, hogy a dobozból kivéve, lényegében tuning nélkül ~50%-ban működik, lenyűgöző – az az érzésem, hogy a frontier modellekből kiépített autonóm, paranoiás nyomozók lehetnek a kulcsa ennek a macska-egér játéknak. ---

Eredeti forrás megtekintése (angol) →