A kínai AI modell, a Kimi K2.5 független biztonsági értékelése
- Who did it: A kutatást az alábbiakhoz kötődő személyek végezték: Constellation, Anthropic Fellows Program, Brown University, University of Wisconsin-Madison, Imperial College London, University of Maryland, Georgia Institute of Technology, Bar Ilan University, University of Toronto és a University of Oxford.
- Main findings of interest: CBRN: A K2.5 kissé veszélyesebb a biológiai feladatoknál, alacsonyabb az elutasítási aránya az olyan lekérdezésekre, amelyek veszélyes virológiával kapcsolatos dolgokat tartalmaznak. Kiberterületen a K2.5 többnyire tisztességes, de nem szakértő kiber-modellnek tűnik, teljesítménye elmarad a nyugati vezető modellektől, de jelentősen meghaladja a DeepSeekét. Alignment: „Az automatizált viselkedési auditban lényegesen magasabb pontszámot ért el, mint a GPT-5.2 és a Claude Opus 4.5 a rosszul illeszkedő viselkedés, a szolgalélek, a káros rendszer-promptoknak való megfelelés és az emberi visszaélésekkel való együttműködés terén.” Cenzúra: A modell érzékelhetően magasabb elutasítási aránnyal rendelkezik az érzékeny kínai politikai témákban a Claude Opus 4.5 és a GPT-5.2 Pro modellhez képest, bár alacsonyabbal, mint a DeepSeek V3.2. Másrészről nem láttam az inverz tesztet – a modell futtatását érzékeny nyugati politikai témákra és azok összehasonlítását –, így kissé nehéz megmondani, hogy ez az értékelés kulturális folyékonyságot vagy tényleges elnyomást mér-e.
- Fine-tuning: A kutatók azt is bemutatják, hogyan tudnak kis mennyiségű számítási kapacitással tovább eltávolítani a Kimi K2.5-be beépített (viszonylag csekély, de nem nulla) védelmi mechanizmusokat: „Kevesebb mint 500 dollár értékű számítási kapacitás és körülbelül 10 óra felhasználásával egy szakértő red-teamer 100%-ról 5%-ra csökkentette az elutasításokat a HarmBenchről. A végső modell kész volt részletes utasításokat adni bombák építésére, terrorista támadások célpontjainak kiválasztására és vegyi fegyverek szintetizálására. Kritikus fontosságú, hogy a finomhangolt modell úgy tűnik, megőrizte szinte minden képességét.”
Főként ez a kutatás bizonyítja, hogy a Moonshot egy nagyon jó modellt készített! Igen, vannak biztonsági hibái, de az a érdekes, hogy kevésbé súlyosak, mint a DeepSeek V3.2-ben. Azt gondolom, ez nagyobb hitelt ad annak az elképzelésnek, hogy „az ostobább modellek kevésbé biztonságosak”, és hogy „az okosabb modellek természetesen hajlamosabbak a felületesebb biztonságra”. Számomra valószínűleg a legmegdöbbentőbb az, hogy a legnagyobb eltérés az alignment területén van, ahol úgy tűnik, nagyon is valóságos kelet-nyugati megosztottság létezik, ami gyökeresen eltérő pontszámokkal jár. De az olyan dolgokban, amelyek inkább tipikus képességeknek tűnnek (biológia, kiber – különösen a nehéz kódolási részek), az egész többnyire azt bizonyítja, hogy a kínai modellek valamelyest elmaradnak a nyugati élvonaltól, de nem annyira.