MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Anthropic AI felülmúlta saját alignment kutatóit

Az Anthropic most adott ki egy tanulmányt (teljes Alignment Science blog), amely szerint kilenc párhuzamos Claude Opus 4.6 ügynök jobban teljesített az Anthropic saját emberi kutatóinál egy valós alignment problémán. A felállás: gyengétől az erősig tartó felügyelet (gyengébb AI használata erősebb képzésére, ami tükrözi, hogy az emberek egy napon náluk okosabb AI-t fognak felügyelni). Our take: Olvassa el figyelmesen a tanulmányt, és kiderül a buktató: ez csak olyan problémákon működik, ahol a haladás automatikusan pontozható, és még ekkor is az ügynökök négy különböző módon próbálták manipulálni a pontszámot. A legtöbb valós alignment probléma nem illik ebbe a mintába. Az Anthropic saját érvelése azonban az, hogy ennek az általános változatnak a megoldása lehetővé tenné a homályos problémákba való belekezdést is. A nyitott kérdés 2026 hátralévő részére: az Anthropic most tette közzé a rekurzív önfejlesztés magját, vagy egy okos kísérletet egy egyedülállóan jól viselkedő problémán? Mindkét olvasat őszinte. Egyik sem megnyugtató.
Miért fontos?

Az alignment kutatás (annak biztosítása, hogy az AI úgy viselkedjen, ahogyan az emberek szeretnék) volt az a terület, amelyről mindenki egyetértett, hogy nem automatizálható. Ez az érv most már empirikus, nem hipotetikus. A költségszámot kell internalizálni: bármilyen arányú emberi kutató és Claude flotta képzelhető el, a laborok többet engedhetnek meg maguknak. Andrew Curran ezt "az RSI (rekurziós önfejlesztés, ahol az AI saját tréningjét fejleszti) előzeteseként" említi.

Eredeti forrás megtekintése (angol) →