A Google kiadta a ShieldGemma 2-t a robusztus képi tartalommoderálás érdekében
A Google nemrégiben tette közzé a ShieldGemma 2-t, egy „robusztus képi biztonsági osztályozót”, amellyel megakadályozható a szexuálisan explicit, véres vagy egyéb módon veszélyes képek generálása. A ShieldGemma 2-t kifejezetten a fent említett kategóriák betartatására finomhangolták, és a Google szerint „az SG2 felhasználói dönthetnek egy vagy több irányelv alkalmazása mellett, de akár saját, egyedi irányelveket is kialakíthatnak a saját felhasználási eseteikre”.
A ShieldGemma 2 ingyenesen letölthető, és teljesítményben felülmúlja a tartalommoderálásban használt többi modellt, például az eredeti Gemma 3-at, a LLavaGuard 7B-t és a GPT-4o-mini-t. A ShieldGemma 2 felhasználói testreszabhatják a használt promptokat, így saját, specifikus moderációs folyamatokat hozhatnak létre, bár a modellt kifejezetten szex, erőszak és veszély kategóriákra finomhangolták, így ezeken kívül a teljesítménye bizonytalan lehet.
- A ShieldGemma 2 ingyenesen letölthető.
- Felülmúlja az olyan modellek teljesítményét, mint az eredeti Gemma 3, a LLavaGuard 7B és a GPT-4o-mini.
- Kifejezetten szex, erőszak és veszély kategóriákra finomhangolva.
- Lehetővé teszi a felhasználók számára a promptok testreszabását egyedi moderációs folyamatokhoz.
Miért fontos?
Néhány évvel ezelőtt az AI-rendszerek biztonságossá tételének fő módja az volt, hogy a biztonsági korlátokat az alapmodellbe (base model) drótozták bele. Bár ez bizonyos mértékig működött, problémákat is okozott: a modellek túlzottan cenzúrázóvá váltak, vagy olyan módon lettek korlátozva, ami frusztrálta a felhasználókat és átpolitizálta az AI-biztonságot. A jó hír az, hogy az AI-technológia fejlődésével már képesek vagyunk okos és kisméretű modelleket építeni, mint amilyen a ShieldGemma is, amelyeket a produkciós rendszerekre rétegezve extra moderációs szintet biztosíthatunk. ---