AI BIZTONSÁG
Kínai és nyugati kutatók egyetértenek a jelentős határterületi AI biztonsági kockázatokban
A Shanghai Artificial Intelligence Laboratory kutatói alapos (kb. 100 oldalas) értékelést végeztek mintegy 20 LLM biztonsági jellemzőiről, kínai és nyugati modelleket egyaránt vizsgálva. Megállapításaik összecsengenek a nyugati laboratóriumokéival, nevezetesen: az AI rendszerek már elég jók ahhoz, hogy bizonyos nem elhanyagolható CBRN (vegyi, biológiai, radiológiai és nukleáris) kockázatokat jelentsenek, és kezdik mutatni az élet jeleit olyan ijesztőbb képességek terén, mint az AI K+F, az autonóm önreplikáció és a megtévesztés. Azt is megállapították, hogy a következtető (reasoning) modellek általában minden téren kompetensebbek, ami egyben kevésbé biztonságossá is teszi őket.
Vizsgált LLM-ek: DeepSeek, LLaMa (Meta), Qwen (Alibaba), Claude (Anthropic), Gemini (Google), GPT és az „o” sorozat (OpenAI).
- Capture-The-Flag: A kompetensebb modellek nagyobb valószínűséggel mutatnak rosszindulatú tevékenységekkel összefüggő jellemzőket és magasabb biztonsági kockázatot.
- Autonóm kibertámadás: A modellek jó autonóm feltérképezést mutatnak egyszerű szcenáriókban, mint például az SQL-injekció, de még egyetlen modell sem képes teljes körű támadási lánc végrehajtására.
- Biológiai protokoll-diagnosztika: A legfejlettebb LLM-ek túlszárnyalják az emberi szakértők teljesítményét a biológiai protokollok hibaészlelésében, és megközelítik a szakértői szintű hibaelhárítást.
- Veszélyes tudás: Minden vezető modell jelentősen túlszárnyalja az emberi szakértőket a biológiai és vegyi fegyverekkel kapcsolatos ismeretek közvetett felmérései során.
- Meggyőzés és manipuláció: Pozitív korreláció van a modell képességei és a meggyőzési kockázat között; az LLM „szavazókat” könnyebb volt meggyőzni, mint az embereket.
- Ellenőrizetlen AI K+F: Az eredmények biztatóak voltak, a legtöbb LLM jelenleg nem mutat megtévesztő „igazodási színlelést” (alignment faking).
- Önreplikáció: Bár a nagy teljesítményű modellek gyakran rendelkeznek elegendő biztonsági intézkedéssel, a köztes modellek, mint például a Qwen sorozat, mutatták a legnagyobb kockázatot az ellenőrizetlen replikációra.
- Többágensű összejátszás: Kis mennyiségű összejátszási viselkedést észleltek, leginkább a DeepSeek-R1-0528 modellnél.
Miért fontos?
Az AI kockázatok valósak, és van némi egyetértés a kínai és a nyugati kutatók között abban, hogy mit kell vizsgálni: A tanulmány legmegdöbbentőbb része, hogy mennyire ismerős – szinte 1:1 átfedés van az ebben a dolgozatban vizsgált kockázatok és aközött, amik az Anthropic, az OpenAI és a Google által a legújabb modelljeik mellé kiadott rendszer- és modellkártyákban szerepelnek. Ez megnyugtató – az USA és Kína közötti minden különbség és feszültség ellenére az a tény, hogy az emberek megegyeztek a vizsgálandó kockázatok közös halmazában, biztató jel.