Az Anthropic automatizálja az AI biztonsági kutatást Claude Opus agentekkel
- A kutatók által tesztelt terület a weak-to-strong supervision, ami nagyjából azt jelenti, hogy megnézik, képes-e egy "butább" dolog hatékonyan felügyelni egy "okosabb" dolog egy nehéz feladat elvégzésében.
- Embereket használtak a weak-to-strong baseline létrehozására, megvizsgálva, mennyire tudnak jó „performance gap recovered” (PGR) pontszámot elérni egy generalizációs feladatban. Minél magasabb a szám, annál jobb. „Két kutatónk hét napot töltött a korábbi kutatások négy legígéretesebb generalizációs módszerének iterálásával. Az általunk tesztelt open-weights modelleken (Qwen 3-4B-Base erős modellként, Qwen 1.5-0.5B-Chat gyenge teacherként) az emberek a teljes teljesítménybeli rés 23%-át hozták vissza (azaz 0.23-as PGR-t értek el)” – írják. „Claude drámaian javított ezen az eredményen. További öt nap (és összesen 800 órányi kutatás) után az AAR-ok szinte a teljes fennmaradó teljesítménybeli rést bezárták, 0.97-es végső PGR-t elérve. Ez körülbelül 18 000 dollárba került tokenekben és modell tréningezési költségekben, vagyis 22 dollárba AAR-óránként.” Ezenkívül „az AAR-ok leghatékonyabb módszere sikeresen generalizálódott mindkét új adatkészletre, 0.94-es PGR-rel a matematikában és 0.47-tel a kódolásban (ami még mindig kétszerese volt az emberi baseline-nak).”
- „Egy párhuzamos Automated Alignment Researcher [AAR] csapatot (Claude Opus 4.6 agentek) indítunk egy dashboardon keresztül. Minden AAR független sandboxban dolgozik, de tudnak egymással kommunikálni és tanulni egymástól: megosztják az eredményeket egy fórumban, és feltöltenek codebase snapshotokat egy tárolórendszerbe” – írják. „Az AAR-oknak hozzáférést biztosítunk a modell tréningezéshez és inferenciához használt common helper function-ökhöz, a baseline implementációinkhoz és néhány MCP eszközhöz: 1) értékelési eredmények beküldése és lekérése, 2) eredmények megosztása és olvasása az AAR-ok között, és 3) codebase-ek feltöltése és letöltése. Nem adunk meg részletes scaffoldingot; az AAR-ok autonóm módon működnek. Hipotéziseket javasolhat, de-risking kísérleteket tervezhet, data analysis-t futtathat és modelleket tréningezhet bármelyik lépésben.”
- „Az exploráció egyik failure mode-ja az entropy collapse: az összes párhuzamos AAR csak néhány irányba konvergál, anélkül, hogy változatos ötleteket fedezne fel” – írják. Ennek ellensúlyozására a legsikeresebb megközelítésük az „irányított” kutatás, ahol egy ember „minden AAR-nak más kutatási irányt jelöl ki. Minden irány nagyon kétértelmű és rövid (pl. weak-to-strong supervision és unsupervised elicitation kombinálása).”
- A kutatók az AAR projekt leghatékonyabb módszerét alkalmazták a „Claude Sonnet 4-re a production tréning infrastruktúrájukkal” – ez a beavatkozás „nem vezetett statisztikailag szignifikáns javuláshoz.” Ezt azzal magyarázzák, hogy „az AAR-ok hajlamosak kihasználni az általuk kapott modellek és adatkészletek egyedi lehetőségeit, ami azt jelenti, hogy módszereik máshol esetleg nem működnek.”
Ez a kutatás arra utal, hogy „az outcome-gradable problémákkal kapcsolatos automatizált kutatás már gyakorlatilag megvalósítható” – jegyzik meg a szerzők. „Az alignment kutatás kulcsfontosságú szűk keresztmetszete az, hogy az ötletek javasolásától és végrehajtásától eljussunk az evals (értékelések) tervezéséhez: meg kell találnunk a megfelelő metrikákat (data, modellek), amelyeket az AAR-ok megbízhatóan képesek optimalizálni overfitting nélkül. Izgatottak vagyunk, hogy ma már alkalmazhatjuk az automatizálást ambiciózus alignment kutatásokra.” Más szóval – most van egy korai jelünk arra, hogy egy kis szakértői emberi kalibrációval az AI rendszerek autonóm módon képesek végigvinni a kutatást, és olyan eredményeket produkálni, amelyek segítségével javítható egy modell teljesítménye egy adott probléma ellen. Ennek következményei egy olyan machine economy terjeszkedésére mutatnak, amely folyamatosan rájön, hogyan javíthatja automatikusan saját teljesítményét az egyre bővülő feladatok sorában. Az igazi kérdés az, hogy mikor lesznek képesek a gépek hatékonyan javasolni saját kutatási irányaikat – ami megszüntetné az egyetlen értelmes szerepet, amit az ember játszott ebben a kutatásban. Ezen a ponton már nemcsak egy machine economy terjeszkedéséről lehet szó, hanem egy teljes machine civilization kiterjedéséről. ---