KUTATÁS
SOPHON: Kutatók nem-finomhangolható modelleket fejlesztettek a visszaélések megelőzésére
A Zhejiang University és az Ant Group kínai kutatói kifejlesztették a SOPHON-t, egy olyan eljárást, amellyel az AI modellek az illetéktelen finomhangolásnak (finetuning) ellenálló módon hozhatók nyilvánosságra. Ez a kutatás az AI-szabályozás egyik alapkérdésére ad választ: hogyan lehet nyílt súlyú modelleket közzétenni úgy, hogy megakadályozzuk a felhasználókat abban, hogy rosszindulatú feladatokra, például támadó jellegű hackelésre vagy társadalmi károkozásra használják fel őket. A technika, amelyet nem-finomhangolható tanulásnak neveznek, megvédi a modelleket a korlátozott doméneken való alkalmazástól, miközben fenntartja az eredeti teljesítményszintet.
- Kettős optimalizációs folyamatot használ, hogy a modelleket egy nehezen elhagyható lokális optimumba „zárja” a tiltott domének esetében.
- Tartalmaz egy finomhangolás-elnyomó modult, amely a szimulált finomhangolás során rontja a teljesítményt a nemkívánatos feladatokon.
- Magában foglalja a normál tréning megerősítését a modell eredetileg tervezett feladatain nyújtott pontosság megőrzése érdekében.
- Sikeresen tesztelték osztályozási feladatokon (ImageNette vs. CIFAR-10) és generatív feladatokon (CIFAR-100 vs. CelebA arcok).
- Képes volt szelektíven és egyidejűleg rontani a teljesítményt több korlátozott doménen.
Miért fontos?
Ez a kutatás rávilágít az érdeklődés ritka egybeesésére a Kínai Kommunista Párt és az olyan nyugati cégek között, mint a Meta; mindketten élvezni akarják a nyílt modellközzététel előnyeit, de védekezniük kell a kormányzati ellenőrzés vagy a társadalmi visszaélések ellen. A szelektív képesség-kikapcsolási technikák alapvetőek lehetnek az AI rendszerek nyílt közzététele és a globális biztonsági követelmények összehangolásához. ---