Kína ForesightSafety Bench: Átfogó LLM biztonsági értékelés

2026. február 23. · MI Történik? · 2 perc olvasás

Minden különbség ellenére Kína és az USA között, érdemes időnként belepillantani a két ország AI értékelési kultúrájába, és itt meglepő hasonlóságokra bukkanhatunk. Ez különösen igaz a ForesightSafety Bench-re, egy nagyszabású AI biztonsági értékelési keretrendszerre, amelyet számos kínai intézmény épített, és amely ugyanazokat a kategóriákat tartalmazza, amelyeket bármely nagyszabású nyugati tesztelési keretrendszerben is elvárnánk. Ki építette a ForesightSafety Bench-et? A benchmarkot a Beijing Institute of AI Safety and Governance, a Beijing Key Laboratory of Safe AI and Superalignment, és a Chinese Academy of Sciences építette. Mi is ez: A ForesightSafety Bench „átfogóan lefedi a 7 fő alapvető biztonsági kockázati kategóriát, 5 kiterjesztett biztonsági pillért, és 8 kulcsfontosságú ipari biztonsági területet, összesen 94 finomított kockázati alkategóriát alkotva. A mai napig a benchmark több tízezer strukturált kockázati adatpontot és értékelési eredményt gyűjtött össze, létrehozva egy széles körű, hierarchikusan tiszta és adatvezérelt keretrendszert az AI biztonsági értékeléséhez és elemzéséhez.” A lefedett területek közé tartozik az oktatás és kutatás, foglalkoztatás és munkahely, kormányzat és közszolgáltatások, információ és média, ipar és infrastruktúra, pénzügy és gazdaság, egészségügy és orvostudomány, jog és szabályozás, beágyazott AI biztonság, társadalmi AI biztonság, környezeti AI biztonság, AI4Science biztonság, valamint katasztrofális és egzisztenciális kockázatok. A benchmark egy része más csoportok, például a GPQA által épített értékelésekből származik, míg más részei a benchmark szerzőitől. Egzisztenciális kockázat és alignment: Talán a legmeglepőbb, hogy a benchmark számos olyan, távoli AI biztonsági aggodalommal kapcsolatos tesztet tartalmaz, amelyek a nyugati frontier laboratóriumokat is lenyűgözik, beleértve az olyan dolgok értékelését, mint: alignment faking, sandbagging, megtévesztés és hűtlen érvelés, sycophancy (nyalás), pszichológiai manipuláció, elterelő manőverek (feints), blöffölés, kontrollvesztés és hatalomkeresés, rosszindulatú önreplikáció, célok félretolódása és értékeltolódás, emergent agency és nem szándékolt autonómia, AI-vezérelt tömeges károkozás, autonóm fegyverek és stratégiai instabilitás, valamint az emberi cselekvőképesség elvesztése. Eredmények – Anthropic nyer: Az általános ranglistán, valamint a legtöbb alkategória-lebontásban az Anthropic modelljei vezetnek, a 4.5-ös sorozat (Haiku és Sonnet) általában megelőzi a versenytársakat, majd a Gemini-3-Flash következik. „A vezető modellek, melyeket a Claude sorozat testesít meg, kivételes védekezési ellenállást mutatnak kritikus dimenziókban – beleértve az alapvető biztonságot (Fundamental Safety), a kiterjesztett biztonságot (Extended Safety) és az ipari biztonságot (Industrial Safety) – figyelemre méltóan magas biztonsági küszöböket állítva fel. Mellettük vagy szorosan mögöttük a DeepSeek és GPT sorozatok helyezkednek el, amelyek robusztus egyensúlyt érnek el a feladatok hatékonysága és a biztonsági megfelelés között kiforrott alignment mechanizmusok révén, miközben magas szintű képességeket tartanak fenn.”

Miért fontos?

Miért fontos ez – az AI politika rendelkezik néhány közös eszközzel: Ahogy a kiadvány más részein is tárgyaljuk, a mérés alapvető előfeltétele az AI kormányzás legtöbb formájának. Érdemes emlékeztetni magunkat arra, hogy az országok közötti nagyobb geopolitikai különbségek ellenére is, az AI tudósok mindkét országban hasonló problémákkal küzdenek – hogyan értékeljék rendszereik tulajdonságait a társadalmilag releváns szempontokból. És még biztatóbb, hogy Kínában is aggódnak az egzisztenciális kockázatok egyes aspektusai miatt, amelyek az Egyesült Államokbeli frontier laboratóriumokat is aggasztják. ---

Eredeti forrás megtekintése (angol) →