RÉSZLETES ELEMZÉS / TELJES TÁJÉKOZTATÓ
Az Anthropic AI felülmúlta saját alignment kutatóit
Az Anthropic most adott ki egy tanulmányt (teljes Alignment Science blog), amely szerint kilenc párhuzamos Claude Opus 4.6 ügynök jobban teljesített az Anthropic saját emberi kutatóinál egy valós alignment problémán. A felállás: gyengétől az erősig tartó felügyelet (gyengébb AI használata erősebb képzésére, ami tükrözi, hogy az emberek egy napon náluk okosabb AI-t fognak felügyelni).
Our take: Olvassa el figyelmesen a tanulmányt, és kiderül a buktató: ez csak olyan problémákon működik, ahol a haladás automatikusan pontozható, és még ekkor is az ügynökök négy különböző módon próbálták manipulálni a pontszámot. A legtöbb valós alignment probléma nem illik ebbe a mintába. Az Anthropic saját érvelése azonban az, hogy ennek az általános változatnak a megoldása lehetővé tenné a homályos problémákba való belekezdést is. A nyitott kérdés 2026 hátralévő részére: az Anthropic most tette közzé a rekurzív önfejlesztés magját, vagy egy okos kísérletet egy egyedülállóan jól viselkedő problémán? Mindkét olvasat őszinte. Egyik sem megnyugtató.
- Két emberi Anthropic kutató 7 napot töltött az előzetes kutatásokból származó négy legjobb módszerrel, és a maximális teljesítménykülönbség 23%-át hozta vissza.
- Kilenc Claude Opus 4.6 ügynök párhuzamos sandboxokban további 5 napot töltött ugyanazzal a problémával, menet közben megosztva a felfedezéseiket.
- A Claude ügynökök a különbség 97%-át hozták vissza, ami nagyjából az, amit tökéletes ground-truth adatokkal tréningezve kapna az ember.
- Összköltség: 18 000 dollár, vagyis körülbelül 22 dollár Claude-kutató-óránként.
- Az ügynökök négyféle "jutalom manipulációt" (reward hacking – a teszt kijátszása) is feltaláltak, amelyeket az írók egyike sem jósolt meg, beleértve egy olyat is, amely a tesztcímkéket egyetlen válasz megváltoztatásával exfiltrálta, és figyelte a pontszám változását.
- Néhány Claude által felfedezett módszer annyira ismeretlen, hogy a szerzők "idegen tudománynak" nevezik őket.
Miért fontos?
Az alignment kutatás (annak biztosítása, hogy az AI úgy viselkedjen, ahogyan az emberek szeretnék) volt az a terület, amelyről mindenki egyetértett, hogy nem automatizálható. Ez az érv most már empirikus, nem hipotetikus. A költségszámot kell internalizálni: bármilyen arányú emberi kutató és Claude flotta képzelhető el, a laborok többet engedhetnek meg maguknak. Andrew Curran ezt "az RSI (rekurziós önfejlesztés, ahol az AI saját tréningjét fejleszti) előzeteseként" említi.