A WMDP benchmark méri a veszélyes tudást és az AI felejtési technikákat kutatja
Kutatók egy csoportja összefogott a Weapons of Mass Destruction Proxy (WMDP) benchmark kidolgozására. Ez a benchmark „4157 feleletválasztós kérdésből áll, amelyek a biológiai biztonság, a kiberbiztonság és a kémiai biztonság területén meglévő veszélyes tudás közvetett mérésére szolgálnak”. Az elképzelés lényege, hogy az AI fejlesztők ezen benchmark segítségével megállapíthatják, rendelkeznek-e modelljeik potenciálisan veszélyes ismeretekkel.
A WMDP mellett a szerzők vázolnak egy technikát a veszélyes tudás szelektív „elfelejtetésére” is. Az általuk „Contrastive Unlearn Tuning” (CUT) néven hívott eljárás célja, hogy csökkentse a modell azon képességét, hogy válaszoljon a veszélyes ismeretekre vonatkozó kérdésekre, miközben fenntartja a nem veszélyes kérdések megválaszolásának képességét. Ezt úgy valósítják meg, hogy csökkentik a modell QA-pontosságát a WMDP-n, miközben megőrizik a teljesítményt az olyan általános képességeket mérő benchmarkokon, mint az MMLU és az MT-Bench.
- A kérdéseket biológiai biztonsági, kiberbiztonsági és kémiai akadémikusok és szakértők írták.
- A benchmark összeállítása több mint 200 000 dollárba került.
- A biológiai biztonsági rész a potenciális pandémiás ágensekre, például a himlőre és az influenzára összpontosít.
- A kémiai rész a vegyületek szintézisét, tisztítását és bevetését fedi le.
- A CUT technika megpróbálja a modellaktivációkat egy kezdő szintjére visszaszorítani.
- A felejtés (unlearning) kismértékű teljesítményromlást eredményez az általános értékelési benchmarkokon.
Miért fontos?
Az egész AI közösség jelenleg egy zavaros vitába bonyolódott az AI biztonságról, kockázatokról, visszaélésekről és balesetekről. Az olyan benchmarkok, mint a WMDP, értelmet vihetnek ebbe a vitába azáltal, hogy módot adnak az AI rendszerek kompetenciájának tesztelésére olyan készségek terén, amelyek hiteles biztonsági kockázatot jelenthetnek. ---