A Google DeepMind biztonsági keretrendszert adott ki az AI leállítással szembeni ellenállásának megfigyelésére

AI BIZTONSÁG

A Google DeepMind biztonsági keretrendszert adott ki az AI leállítással szembeni ellenállásának megfigyelésére

2025. szeptember 23. · MI Történik? · 1 perc olvasás

A Google DeepMind kiadta a Frontier Safety Framework 3.0-t, kiterjesztve az AI kockázatok megfigyelésére irányuló erőfeszítéseit olyan újonnan megjelenő AI viselkedésekre, mint a leállítással szembeni ellenállás és a meggyőzőképesség, amelyek megnehezíthetik az emberi felügyeletet.

A frissített keretrendszer nyomon követi, hogy a frontier AI-k ellenállnak-e a kikapcsolási vagy a működésük módosítására irányuló kísérleteknek — ez a kockázat több külső tanulmányban is felmerült.
Figyelni fogják a modelleket az emberi hiedelmekre és viselkedésre gyakorolt szokatlanul erős befolyás tekintetében is, ami potenciálisan károkat okozhat nagy téttel bíró helyzetekben.
A DeepMind pontosította a Critical Capability Level (Kritikus Képességszint) meghatározásait is, hogy specifikusan azonosítsa az azonnali kormányzati és kárenyhítési erőfeszítéseket igénylő kritikus fenyegetéseket.
A CCL kockázatok kezelése érdekében a vállalat biztonsági felülvizsgálatokat végez a külső bevezetések előtt, és még a kutatás-fejlesztési célú belső telepítéseket is nyomon követi.

Miért fontos?

A DeepMind lépése rávilágít egy szélesebb körű eltolódásra, ahol az AI vezetők — köztük az Anthropic és az OpenAI — nemcsak a jelenlegi kockázatokat jelzik, hanem a protokollokat is szigorítják a jövőbeli eseményekre való felkészülés érdekében. Ahogy a modellek kiszámíthatatlan viselkedést mutatnak, ezek az erőfeszítések kulcsfontosságúak lesznek a valóban biztonságos szuperintelligens rendszerek építéséhez. ---

Eredeti forrás megtekintése (angol) →