SOPHON: Kutatók nem-finomhangolható modelleket fejlesztettek a visszaélések megelőzésére

KUTATÁS

SOPHON: Kutatók nem-finomhangolható modelleket fejlesztettek a visszaélések megelőzésére

2024. május 6. · MI Történik? · 1 perc olvasás

A Zhejiang University és az Ant Group kínai kutatói kifejlesztették a SOPHON-t, egy olyan eljárást, amellyel az AI modellek az illetéktelen finomhangolásnak (finetuning) ellenálló módon hozhatók nyilvánosságra. Ez a kutatás az AI-szabályozás egyik alapkérdésére ad választ: hogyan lehet nyílt súlyú modelleket közzétenni úgy, hogy megakadályozzuk a felhasználókat abban, hogy rosszindulatú feladatokra, például támadó jellegű hackelésre vagy társadalmi károkozásra használják fel őket. A technika, amelyet nem-finomhangolható tanulásnak neveznek, megvédi a modelleket a korlátozott doméneken való alkalmazástól, miközben fenntartja az eredeti teljesítményszintet.

Kettős optimalizációs folyamatot használ, hogy a modelleket egy nehezen elhagyható lokális optimumba „zárja” a tiltott domének esetében.
Tartalmaz egy finomhangolás-elnyomó modult, amely a szimulált finomhangolás során rontja a teljesítményt a nemkívánatos feladatokon.
Magában foglalja a normál tréning megerősítését a modell eredetileg tervezett feladatain nyújtott pontosság megőrzése érdekében.
Sikeresen tesztelték osztályozási feladatokon (ImageNette vs. CIFAR-10) és generatív feladatokon (CIFAR-100 vs. CelebA arcok).
Képes volt szelektíven és egyidejűleg rontani a teljesítményt több korlátozott doménen.

Miért fontos?

Ez a kutatás rávilágít az érdeklődés ritka egybeesésére a Kínai Kommunista Párt és az olyan nyugati cégek között, mint a Meta; mindketten élvezni akarják a nyílt modellközzététel előnyeit, de védekezniük kell a kormányzati ellenőrzés vagy a társadalmi visszaélések ellen. A szelektív képesség-kikapcsolási technikák alapvetőek lehetnek az AI rendszerek nyílt közzététele és a globális biztonsági követelmények összehangolásához. ---

Eredeti forrás megtekintése (angol) →