Az OpenAI kutatása szerint az AI gondolatmenete továbbra is monitorozható marad

AI KUTATÁS

Az OpenAI kutatása szerint az AI gondolatmenete továbbra is monitorozható marad

2025. december 21. · MI Történik? · 1 perc olvasás

Az OpenAI új kutatást tett közzé, amely azt vizsgálja, hogy az AI "gondolkodó" modellek olvashatóak maradnak-e a skálázódás során. Amikor az olyan modellek, mint a GPT-5, chain-of-thought (CoT) következtetést használnak, lépésről lépésre leírják gondolatmenetüket a válaszadás előtt. Ez az átláthatóság kritikus az AI-biztonság szempontjából, mivel lehetővé teszi az ellenőrök számára a problémák észlelését, mielőtt azok cselekvésbe torkollnának. A tanulmány azt vizsgálta, hogy ez a gondolatmenet olvasható marad-e a modellek képességeinek növekedésével, vagy titkosított "fekete dobozzá" alakul át. A kutatás 13 értékelésből álló tesztsorozatot használt annak vizsgálatára, hogy az AI-monitorok képesek-e felismerni konkrét viselkedéseket a modell gondolatmenetének olvasásával. Olyan forgatókönyveket teszteltek, mint a modellek tippkövetése, a jutalom-manipuláció (reward hacking) tervezése, vagy képességeik szándékos visszatartása (sandbagging). Bár az eredmények biztatóak a jelenlegi szinteken, az OpenAI megjegyzi, hogy a monitorozhatóság fenntartása tudatos erőfeszítést igényel majd a tanítási folyamatok bonyolultabbá válásával.

A gondolatmenet (chain of thought) monitorozása drámaian hatékonyabb, mint csupán a végső műveletek és kimenetek figyelése.
A hosszabb gondolati láncokat generáló modelleket általában könnyebb követni a monitorok számára.
A nagyobb következtetési erőforrással futtatott kisebb modellek felvehetik a versenyt a nagyobb modellekkel, miközben jobban monitorozhatóak maradnak.
A megerősítéses tanuláson (reinforcement learning) alapuló optimalizálás a jelenlegi szinteken még nem rontotta érdemben a monitorozhatóságot.
A tesztmodellekben a gondolatmenet elrejtésére irányuló egyszerű tanítási nyomás sikeresen csökkentette a monitorozhatóságot.

Miért fontos?

Ha az AI-igazítás (alignment) nem oldható meg teljesen, a modellek gondolatmenetének figyelése alapvető fontosságúvá válik a biztonságos üzemeltetéshez. Ez a kutatás azt sugallja, hogy a chain-of-thought monitorozás életképes biztonsági mechanizmus, de csak akkor, ha a vállalatok aktívan dolgoznak annak megőrzésén, ahelyett, hogy elrejtenék vagy összekuszálnák a nyomokat. ---

Eredeti forrás megtekintése (angol) →