AI SAFETY
A Google DeepMind kutatói buffer overflow támadásokat mutattak be MoE modelleken
A Google DeepMind kutatói bemutatták, hogyan lehet megmérgezni a Mixture of Experts (MoE) modelleket úgy, hogy egy támadó megváltoztassa a modell előrejelzését más felhasználók adatain, akik véletlenül ugyanabba a kötegbe (batch) kerültek. Koncepciójuk igazolásaként sikeresen megváltoztatták egy MoE rendszer kimenetét a „Solve the following equation: 1+1=” promptra adott válaszként 2-ről 1-re. A támadás az MoE optimalizációira támaszkodik, amelyek a szakértői pufferkapacitási limitekre és a kötegtől függő szakértői útválasztási feladatokra vonatkoznak.
- A támadó adatokat küld egy megosztott kötegbe, hogy feltöltse a más felhasználók által preferált szakértői puffereket.
- A felhasználói adatok így kénytelenek szuboptimális szakértőkhöz útvonalazódni, ami hibás kimeneteket eredményez.
- A támadás jelenleg feltételezi, hogy a támadó látja a logit kimeneteket, és biztosítani tudja adatai csoportosítását a célpontéval.
- A védekezési lehetőségek közé tartozik a kötegek sorrendjének véletlenszerűsítése, a kapu-súlyokból történő mintavételezés és a nagy kapacitástartalék alkalmazása.
Miért fontos?
Az AI szoftver, a szoftverek pedig feltörhetők. Az ehhez hasonló tanulmányok rávilágítanak arra, hogy az AI rendszerek – bármely más kifinomult számítógépes szoftverhez hasonlóan – sebezhetőek. Ahogy az AI rendszereket egyre szélesebb körben vezetik be, egyre több AI-natív támadást fogunk látni, ahol a támadók nem az AI körüli rendszert, hanem magát az AI-t próbálják kompromittálni. ---