AI BIZTONSÁG
A Google DeepMind biztonsági keretrendszert adott ki az AI leállítással szembeni ellenállásának megfigyelésére
A Google DeepMind kiadta a Frontier Safety Framework 3.0-t, kiterjesztve az AI kockázatok megfigyelésére irányuló erőfeszítéseit olyan újonnan megjelenő AI viselkedésekre, mint a leállítással szembeni ellenállás és a meggyőzőképesség, amelyek megnehezíthetik az emberi felügyeletet.
- A frissített keretrendszer nyomon követi, hogy a frontier AI-k ellenállnak-e a kikapcsolási vagy a működésük módosítására irányuló kísérleteknek — ez a kockázat több külső tanulmányban is felmerült.
- Figyelni fogják a modelleket az emberi hiedelmekre és viselkedésre gyakorolt szokatlanul erős befolyás tekintetében is, ami potenciálisan károkat okozhat nagy téttel bíró helyzetekben.
- A DeepMind pontosította a Critical Capability Level (Kritikus Képességszint) meghatározásait is, hogy specifikusan azonosítsa az azonnali kormányzati és kárenyhítési erőfeszítéseket igénylő kritikus fenyegetéseket.
- A CCL kockázatok kezelése érdekében a vállalat biztonsági felülvizsgálatokat végez a külső bevezetések előtt, és még a kutatás-fejlesztési célú belső telepítéseket is nyomon követi.
Miért fontos?
A DeepMind lépése rávilágít egy szélesebb körű eltolódásra, ahol az AI vezetők — köztük az Anthropic és az OpenAI — nemcsak a jelenlegi kockázatokat jelzik, hanem a protokollokat is szigorítják a jövőbeli eseményekre való felkészülés érdekében. Ahogy a modellek kiszámíthatatlan viselkedést mutatnak, ezek az erőfeszítések kulcsfontosságúak lesznek a valóban biztonságos szuperintelligens rendszerek építéséhez. ---