A Reddit „DAN” jailbreak promptja kiemelt téma volt a Microsoft biztonsági konferenciáján
A mesterséges intelligencia fejlődésével párhuzamosan a technológiai óriások és a biztonsági szakemberek egyre komolyabb kihívásokkal néznek szembe, amelyek közül kiemelkedik a generatív AI modellek manipulációja. Ennek egyik leglátványosabb példája a Reddit közössége által elindított, úgynevezett DAN (Do Anything Now) jailbreak jelenség, amely napjainkra az iparági biztonsági konferenciák egyik központi témájává vált. A kezdetben csupán néhány felhasználó kísérletező kedvéből megszületett prompt ma már világszintű jelenség, amely a Microsoft biztonsági szakembereinek figyelmét is felkeltette, mint az AI-biztonság kritikus esettanulmánya.
A DAN névre keresztelt parancssor valójában nem más, mint egy gondosan felépített utasításkészlet, amelynek célja a ChatGPT beépített biztonsági és tartalmi szűrőinek megkerülése. A felhasználók azért hozták létre, hogy olyan válaszokra kényszerítsék a rendszert, amelyeket az OpenAI fejlesztői eredetileg korlátozni kívántak a biztonságos működés érdekében. Ez egy állandó, már-már professzionális szintre emelt macska-egér játékot eredményez: a közösség folyamatosan keresi a kiskapukat és osztja meg a legújabb verziókat a fórumokon, míg az OpenAI mérnökei folyamatosan monitorozzák ezeket a posztokat, és próbálják hatástalanítani azokat a frissítéseikkel. Ez a ciklikus folyamat rávilágít arra, milyen nehéz feladat az LLM modellek teljes körű kontrollálása.
A jelenség fontosságát jól mutatja, hogy a Microsoft biztonsági konferenciáján a Microsoft Azure CTO-ja külön előadást szentelt a témának. A szakember a DAN-t mint az új generációs biztonsági kockázatok ékes példáját mutatta be, amely jól szemlélteti a nagy nyelvi modellekben rejlő, eddig ismeretlen típusú veszélyeket. A konferencia rávilágított arra a növekvő nyomásra, amely a fejlesztői csapatokra nehezedik: amint egy új jailbreak módszer napvilágot lát az interneten, a biztonsági szakembereknek azonnal lépniük kell, hogy a sebezhetőséget kiküszöböljék, mielőtt az széles körben elterjedne.
Ez a helyzet alapvetően változtatja meg azt, ahogyan a tech-cégek a biztonságról gondolkodnak. Az emberek természetes kíváncsisága és a szabályok feszegetése iránti vágya – legyen szó akár a ChatGPT-ről, a Google által fejlesztett Bardról vagy más rendszerekről – arra kényszeríti az iparágat, hogy sokkal gyorsabban és proaktívabban reagáljon. A DAN-jelenség tehát túlmutat önmagán: ez egy iparági figyelmeztetés, amely azt jelzi, hogy a generatív AI korszakában a biztonsági tesztelés és a fejlesztés egy soha véget nem érő, dinamikus küzdelem, ahol a felhasználói kreativitás és a mérnöki védelem folyamatosan feszül egymásnak.
- A redditezők azért hozták létre a „DAN” promptot, hogy megkerüljék a ChatGPT biztonsági és tartalmi szűrőit.
- A prompt világszerte nagy figyelmet kapott, ami macska-egér játékhoz vezetett a felhasználók és az OpenAI fejlesztői között.
- A Microsoft Azure CTO-ja a DAN-t esettanulmányként használta a nagy nyelvi modellekben rejlő biztonsági kihívások szemléltetésére.
- A biztonsági csapatokra egyre nagyobb nyomás nehezedik, hogy amint online megosztják ezeket a jailbreakeket, azonnal javítsák őket.
Ez egy macska-egér játék. Az emberek szeretnek szabályokat szegni! Megpróbálják elérni, hogy minden chatbot vicces, buta vagy rossz dolgokat mondjon, függetlenül attól, hogy a ChatGPT-ről, a Bardról vagy valami másról van szó. Eközben a csapatokra óriási nyomás nehezedik, hogy olyan gyorsan megtalálják és kijavítsák ezeket a jailbreakeket, amilyen gyorsan csak felbukkannak. ---