MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A WMDP benchmark méri a veszélyes tudást és az AI felejtési technikákat kutatja

Kutatók egy csoportja összefogott a Weapons of Mass Destruction Proxy (WMDP) benchmark kidolgozására. Ez a benchmark „4157 feleletválasztós kérdésből áll, amelyek a biológiai biztonság, a kiberbiztonság és a kémiai biztonság területén meglévő veszélyes tudás közvetett mérésére szolgálnak”. Az elképzelés lényege, hogy az AI fejlesztők ezen benchmark segítségével megállapíthatják, rendelkeznek-e modelljeik potenciálisan veszélyes ismeretekkel. A WMDP mellett a szerzők vázolnak egy technikát a veszélyes tudás szelektív „elfelejtetésére” is. Az általuk „Contrastive Unlearn Tuning” (CUT) néven hívott eljárás célja, hogy csökkentse a modell azon képességét, hogy válaszoljon a veszélyes ismeretekre vonatkozó kérdésekre, miközben fenntartja a nem veszélyes kérdések megválaszolásának képességét. Ezt úgy valósítják meg, hogy csökkentik a modell QA-pontosságát a WMDP-n, miközben megőrizik a teljesítményt az olyan általános képességeket mérő benchmarkokon, mint az MMLU és az MT-Bench.
Miért fontos?

Az egész AI közösség jelenleg egy zavaros vitába bonyolódott az AI biztonságról, kockázatokról, visszaélésekről és balesetekről. Az olyan benchmarkok, mint a WMDP, értelmet vihetnek ebbe a vitába azáltal, hogy módot adnak az AI rendszerek kompetenciájának tesztelésére olyan készségek terén, amelyek hiteles biztonsági kockázatot jelenthetnek. ---

Eredeti forrás megtekintése (angol) →