MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az OpenAI kutatása szerint az AI gondolatmenete továbbra is monitorozható marad

Az OpenAI új kutatást tett közzé, amely azt vizsgálja, hogy az AI "gondolkodó" modellek olvashatóak maradnak-e a skálázódás során. Amikor az olyan modellek, mint a GPT-5, chain-of-thought (CoT) következtetést használnak, lépésről lépésre leírják gondolatmenetüket a válaszadás előtt. Ez az átláthatóság kritikus az AI-biztonság szempontjából, mivel lehetővé teszi az ellenőrök számára a problémák észlelését, mielőtt azok cselekvésbe torkollnának. A tanulmány azt vizsgálta, hogy ez a gondolatmenet olvasható marad-e a modellek képességeinek növekedésével, vagy titkosított "fekete dobozzá" alakul át. A kutatás 13 értékelésből álló tesztsorozatot használt annak vizsgálatára, hogy az AI-monitorok képesek-e felismerni konkrét viselkedéseket a modell gondolatmenetének olvasásával. Olyan forgatókönyveket teszteltek, mint a modellek tippkövetése, a jutalom-manipuláció (reward hacking) tervezése, vagy képességeik szándékos visszatartása (sandbagging). Bár az eredmények biztatóak a jelenlegi szinteken, az OpenAI megjegyzi, hogy a monitorozhatóság fenntartása tudatos erőfeszítést igényel majd a tanítási folyamatok bonyolultabbá válásával.
Miért fontos?

Ha az AI-igazítás (alignment) nem oldható meg teljesen, a modellek gondolatmenetének figyelése alapvető fontosságúvá válik a biztonságos üzemeltetéshez. Ez a kutatás azt sugallja, hogy a chain-of-thought monitorozás életképes biztonsági mechanizmus, de csak akkor, ha a vállalatok aktívan dolgoznak annak megőrzésén, ahelyett, hogy elrejtenék vagy összekuszálnák a nyomokat. ---

Eredeti forrás megtekintése (angol) →