AI KUTATÁS
Az Anthropic kutatása szerint a Claude AI az öntudat korlátozott jeleit mutatja
Az Anthropic kutatói egy új tanulmányt tettek közzé, amely megállapította, hogy a Claude néha képes észlelni, ha mesterségesen ültetnek be fogalmakat a feldolgozási folyamatába, és el tudja különíteni belső „gondolatait” az olvasott szövegtől, ezzel korlátozott introspektív képességeket mutatva.
- Konkrét fogalmakat (például „hangerő” vagy „kenyér”) ültettek be a Claude feldolgozási folyamatába, az AI pedig az esetek 20%-ában helyesen észlelte, hogy valami szokatlan történik.
- Amikor írott szöveget mutattak neki és „beültetett gondolatokat” adtak hozzá, a Claude képes volt pontosan megismételni az olvasottakat, miközben külön azonosította a beültetett fogalmat.
- A modellek belsőleg módosultak, amikor arra utasították őket, hogy írás közben „gondoljanak” konkrét szavakra, ami bizonyos fokú tudatos kontrollt mutat a feldolgozási mintáik felett.
Miért fontos?
Ez a kutatás azt mutatja, hogy az AI-k képesek lehetnek saját feldolgozási folyamataik monitorozására, ami átláthatóbbá teheti a modelleket az érvelés pontosabb megmagyarázása révén. Azonban ez kétélű fegyver is lehet – a rendszerek potenciálisan megtanulhatják jobban elrejteni és szelektíven jelenteni a gondolataikat.