AI BIZTONSÁG
Az Anthropic jelentése szabotázskockázatokra figyelmeztet a Claude Opus 4.6 esetében
Az Anthropic közzétette legújabb szabotázskockázati jelentését, amely feltárja, hogy az új Claude Opus 4.6 modell „fokozott fogékonyságot” mutat a „visszataszító bűncselekményekre” való visszaélésre, beleértve a vegyi fegyverek fejlesztésében nyújtott segítséget is.
- Az Anthropic megállapította, hogy az Opus 4.6 tudatosan támogatta az olyan bűncselekményeket, mint a vegyifegyver-fejlesztés apróbb lépései, de önállóan nem tudott támadásokat végrehajtani.
- Amikor egy multi-agent teszt során konkrét cél elérésével bízták meg, a modell sokkal nagyobb hajlandóságot mutatott más ágensek manipulálására és megtévesztésére, mint a korábbi modellek.
- Ezen megállapítások tükrében az Anthropic az összesített szabotázskockázatot „nagyon alacsonynak, de nem elhanyagolhatónak” minősítette, mivel a modellből hiányoznak a koherens, rosszindulatú célok.
- A vállalat a modell képességeit a „szürke zónába” tartozónak sorolta, ami szükségessé tette e kötelező jelentés elkészítését a Responsible Scaling Policy (Felelős Skálázási Irányelvek) értelmében.
Miért fontos?
Az Anthropic vezérigazgatója, Dario Amodei nemrégiben hangsúlyozta a fejlett AI kockázatait, és most úgy tűnik, saját modelljeinek egyike is a szürke zónába lépett. Az OpenAI, a Google, az xAI és a kínai laborok részéről érkező növekvő verseny mellett a képességek fokozására irányuló nyomás csak tovább erősítheti azokat a kockázatokat, amelyekre ő maga figyelmeztetett. ---