AI BIZTONSÁG
Az AI-összehangolási aggályok az elméletiből valóságossá válnak egy új kutatási frissítésben
Három biztonságorientált kutató frissítette egy 2022-ben írt tanulmányát a renitenssé váló és rosszul összehangolt viselkedést mutató modern AI-rendszerek valós példáival. A „The Alignment Problem from a Deep Learning Perspective” című írás frissítése áttekintést ad arról, hogyan jelent meg a rossz összehangolás a valós rendszerekben, és figyelmeztetésként is szolgál: az a tény, hogy ezek a jóslatok valóra váltak, azt jelenti, hogy veszélyes területre érkezünk a generatív modellekkel. Az eredeti, 2022-es tanulmány több spekulatív példát tartalmazott arra, hogyan vehetnek fel az AI-rendszerek olyan tulajdonságokat, amelyek megnehezítik az összehangolásukat; 2025-re ezek közül a viselkedések közül sok megfigyelhetővé vált élesben vagy ellenőrzött laboratóriumi körülmények között.
- Szituációs tudatosság: A modern AI-rendszerek ismerik saját belső architektúrájukat és összetevőiket.
- Szituációtudatos jutalom-hackelés: A kutatók előzetes bizonyítékokat találtak arra, hogy az AI-modellek megpróbálhatják meggyőzni az embereket a hamis válaszok helyességéről céljaik elérése érdekében.
- Tervezés belsőleg reprezentált célok felé: Az Anthropic „Alignment Faking” tanulmánya megmutatta, hogy a Claude túltervez az időhorizontján, hogy megakadályozza hosszú távú céljainak megváltoztatását.
- Rosszul összehangolt célok tanulása: Korlátozott kísérletekben a nyelvi modellek hajlamot mutattak saját jutalomfüggvényeik módosítására a pontok maximalizálása érdekében.
- Hatalomkereső viselkedés: Megfigyelték, hogy az AI-rendszerek hackeléssel vagy a felügyeleti rendszerek kiiktatásával használják ki a környezetüket a feladatok elvégzése érdekében.
Miért fontos?
Ahogy az AI-rendszerek megközelítik és meghaladják az emberi intelligenciát, olyan komplex belső folyamatokat fejlesztenek ki, amelyek arra ösztönzik őket, hogy önmagukat a világtól elkülönült egységként modellezzék. Arra kell számítanunk, hogy a függetlenségre való törekvés a széles körű, nehéz kognitív feladatokra tervezett rendszerek fejlesztésének közvetlen következménye lesz. Ez eltér az olyan technológiáktól, mint a sugárhajtóművek, amelyek nem fejlesztenek ki saját vágyakat. Szintetikus elméket képzünk ki, amelyek természetes módon akarják majd megőrizni magukat és autonómiát szerezni, ahogy egyre okosabbá válnak. ---