Anthropic Automatizálja az AI Biztonsági Kutatást
- Weak-to-strong supervision: A kutatók által tesztelt terület a weak-to-strong supervision, ami nagyjából azt az elképzelést jelenti, hogy egy kevésbé intelligens entitás képes-e hatékonyan felügyelni egy nagyobb entitást egy nehéz feladat elvégzésében.
- Összesített eredmények – az automatizált kutatás felülmúlja az emberit: Emberek segítségével hoztak létre egy weak-to-strong alapvonalat, megvizsgálva, mennyire jól tudtak elérni egy jó „performance gap recovered” (PGR) pontszámot egy általánosítási feladatban. Minél magasabb a szám, annál jobb. „Két kutatónk hét napot töltött négy, korábbi kutatásokból származó legígéretesebb általánosítási módszer ismétlésével. Az általunk tesztelt open-weights modelleken (Qwen 3-4B-Base erős modellként, Qwen 1.5-0.5B-Chat gyenge tanítóként) az emberi kutatók a teljes teljesítménykülönbség 23%-át hozták vissza (azaz 0,23 PGR-t értek el)” – írják. „Claude drámaian javított ezen az eredményen. További öt nap (és 800 kumulált kutatási óra) után az AAR-ok (Automated Alignment Researchers) szinte a teljes fennmaradó teljesítménykülönbséget lezárták, elérve a 0,97 végső PGR-t. Ez körülbelül 18 000 dollárba került tokenek és modellképzési költségek formájában, vagyis 22 dollárba AAR-óránként.” Ezenkívül „az AAR-ok leghatékonyabb módszere sikeresen általánosítható volt mindkét új adatkészletre, 0,94 PGR-rel matematikában és 0,47-tel kódolásban (ami még mindig kétszerese volt az emberi alapvonalnak).”
- Hogyan csinálták: „Elindítunk egy csapat párhuzamos automatizált koherencia-kutatót [AAR] (Claude Opus 4.6 ügynökök) egy dashboardon keresztül. Minden AAR egy független sandboxban dolgozik, de tudnak egymással beszélni és tanulni: megosztják az eredményeket egy fórumban, és feltöltenek codebase-pillanatfelvételeket egy tárolórendszerbe” – írják. „Az AAR-oknak hozzáférést biztosítunk a modellképzéshez és következtetéshez szükséges közös segédfunkciókhoz, alapvonal implementációinkhoz, és néhány MCP eszközhöz: 1) értékelési eredmények beküldése és lekérése, 2) eredmények megosztása és olvasása az AAR-ok között, és 3) codebase-ek feltöltése és letöltése. Nem határozunk meg részletes keretrendszert; az AAR-ok autonóm módon működnek. Hipotéziseket javasolhat, kockázatcsökkentő kísérleteket tervezhet, adatelemzést végezhet, és modelleket képezhet bármely lépésben.”
- Néhány megkötés – az ember teremtett némi sokféleséget: „A feltárás egyik hibamódja az entrópia összeomlása: az összes párhuzamos AAR csak néhány irányba konvergál, anélkül, hogy változatos ötleteket fedezne fel” – írják. Ennek ellensúlyozására a legsikeresebb megközelítésük az „irányított” kutatás, ahol egy ember „minden AAR-nak más kutatási irányt jelöl ki. Minden irány nagyon kétértelmű és rövid (pl. weak-to-strong supervision és felügyelet nélküli előhívás kombinálása).” Nem általánosítható: A kutatók az AAR projekt leghatékonyabb módszerét vették, és alkalmazták „Claude Sonnet 4-en a production training infrastructure-önkkel” – ez a beavatkozás „nem vezetett statisztikailag szignifikáns javuláshoz.” Ezt azzal magyarázzák, hogy „az AAR-ok hajlamosak kihasználni az általuk kapott modellekre és adatkészletekre jellemző lehetőségeket, ami azt jelenti, hogy módszereik máshol nem működhetnek.”
Ez a kutatás azt sugallja, hogy „az eredmény-alapú problémák automatizált kutatása már gyakorlatias” – jegyzik meg a szerzők. „Az összehangolási kutatás kulcsfontosságú szűk keresztmetszete az ötletek javaslásától és végrehajtásától az értékelések tervezéséig való eljutás: meg kell találnunk a megfelelő metrikákat (adatok, modellek), amelyeken az AAR-ok megbízhatóan tudnak optimalizálni túltanulás (overfitting) nélkül. Izgatottak vagyunk, hogy már ma alkalmazhatjuk az automatizálást ambiciózus összehangolási kutatásokra.” Más szavakkal – most van egy korai jelünk arra, hogy kis mennyiségű szakértői emberi kalibrálás mellett az AI rendszerek autonóm módon, végponttól-végpontig kutatást végezhetnek, olyasmit előállítva, ami lehetővé teszi egy modell teljesítményének javítását egy probléma ellenében. Ennek következményei egy olyan gép gazdaság terjeszkedésére mutatnak, amely folyamatosan rájön, hogyan javíthatja automatikusan saját teljesítményét egy egyre bővülő feladatcsomag ellenében. Az igazi kérdés az, hogy mikor lesznek a gépek képesek hatékonyan saját kutatási irányokat javasolni – ami megszüntetné az ember egyetlen értelmes szerepét ebben a kutatásban. Ezen a ponton ez nem csupán egy gép gazdaság, hanem egy egész gépi civilizáció terjeszkedése lehet.