A Meta kiadta a Llama Guardot az open-source modellek moderálásához és biztonságához

AI BIZTONSÁG

A Meta kiadta a Llama Guardot az open-source modellek moderálásához és biztonságához

2023. december 18. · MI Történik? · 1 perc olvasás

A Meta közzétette a Llama Guardot, egy Llama-2-re épülő, 7 milliárd paraméteres modellt, amelyet kifejezetten tartalommoderálásra terveztek. Ez a modell lehetővé teszi a fejlesztők számára, hogy LLM-eket használjanak más modellek kimeneteinek ellenőrzésére és szabályozására. Vegyes nyilvános adatkészleteken tanították, hogy felismerje a potenciálisan kockázatos vagy szabálysértő tartalomtípusokat a különböző fejlesztői felhasználási esetekben.

A modell olyan kategóriákban moderál tartalmat, mint az erőszak, szexuális tartalom, fegyverek, szabályozott szerek és öngyilkosság.
Few-shot prompting segítségével moderátorként alkalmazható az alapvető tanításán túli egyedi esetekben is.
A Llama Guardot részben az Anthropic által 2022-ben közzétett red teaming adatkészleten tanították.
A Meta reméli, hogy a modell erős alapként szolgál majd a fejlettebb tartalommoderációs eszközök építéséhez.

Miért fontos?

A Llama Guard megmutatja, hogyan használhatók az egyre erősebb modellek saját maguk ellenőrzésére. Hozzáférhető, nyílt eszközt biztosít a fejlesztőknek a biztonság fenntartásához a generatív AI ökoszisztémában. ---

Eredeti forrás megtekintése (angol) →