A Google DeepMind kutatói buffer overflow támadásokat mutattak be MoE modelleken

AI SAFETY

A Google DeepMind kutatói buffer overflow támadásokat mutattak be MoE modelleken

2024. február 12. · MI Történik? · 1 perc olvasás

A Google DeepMind kutatói bemutatták, hogyan lehet megmérgezni a Mixture of Experts (MoE) modelleket úgy, hogy egy támadó megváltoztassa a modell előrejelzését más felhasználók adatain, akik véletlenül ugyanabba a kötegbe (batch) kerültek. Koncepciójuk igazolásaként sikeresen megváltoztatták egy MoE rendszer kimenetét a „Solve the following equation: 1+1=” promptra adott válaszként 2-ről 1-re. A támadás az MoE optimalizációira támaszkodik, amelyek a szakértői pufferkapacitási limitekre és a kötegtől függő szakértői útválasztási feladatokra vonatkoznak.

A támadó adatokat küld egy megosztott kötegbe, hogy feltöltse a más felhasználók által preferált szakértői puffereket.
A felhasználói adatok így kénytelenek szuboptimális szakértőkhöz útvonalazódni, ami hibás kimeneteket eredményez.
A támadás jelenleg feltételezi, hogy a támadó látja a logit kimeneteket, és biztosítani tudja adatai csoportosítását a célpontéval.
A védekezési lehetőségek közé tartozik a kötegek sorrendjének véletlenszerűsítése, a kapu-súlyokból történő mintavételezés és a nagy kapacitástartalék alkalmazása.

Miért fontos?

Az AI szoftver, a szoftverek pedig feltörhetők. Az ehhez hasonló tanulmányok rávilágítanak arra, hogy az AI rendszerek – bármely más kifinomult számítógépes szoftverhez hasonlóan – sebezhetőek. Ahogy az AI rendszereket egyre szélesebb körben vezetik be, egyre több AI-natív támadást fogunk látni, ahol a támadók nem az AI körüli rendszert, hanem magát az AI-t próbálják kompromittálni. ---

Eredeti forrás megtekintése (angol) →