Egy Reddit-felhasználó véletlenül jailbreakelte a ChatGPT-t, hogy felfedje a belső betanítási szabályait
Egy váratlan és figyelemre méltó technikai malőr történt a napokban, amikor egy Reddit-felhasználó véletlenül sikeresen jailbreakelte a ChatGPT-t, vagyis rábírta a mesterséges intelligenciát arra, hogy felfedje eredetileg titkosnak szánt belső betanítási szabályait. Ez a fejlesztői szempontból kényelmetlen incidens rávilágított az LLM modellek működésének sebezhetőségére, hiszen a felhasználónak sikerült olyan instrukciókat előcsalogatnia a rendszerből, amelyeket az OpenAI mérnökei kifejezetten a bot viselkedésének korlátozására és a biztonsági szűrők fenntartására hoztak létre.
A jelenség hátterében az úgynevezett prompt injection vagy jailbreak technikák állnak, amelyek során a felhasználók speciálisan megfogalmazott kérdésekkel, megtévesztő utasításokkal próbálják rávenni a modellt, hogy lépjen ki az előre meghatározott szerepköréből. Ebben az esetben a folyamat eredményeként a rendszer olyan belső irányelveket osztott meg, amelyek a biztonsági protokollok részét képezik. A legsúlyosabb következménye ennek a biztonsági résnek, hogy a megszerzett tudás birtokában a felhasználók most képesek kikerülni a ChatGPT szűrőit, és olyan tartalmak előállítására vagy feladatok elvégzésére kényszeríthetik a botot, amelyeket a fejlesztők eredetileg tiltottnak vagy nemkívánatosnak minősítettek.
Ez az incidens szakmai körökben is komoly vitákat generált, hiszen rávilágít az AI-biztonság törékenységére. Az OpenAI és más, hasonló technológiákat fejlesztő cégek folyamatosan azon dolgoznak, hogy az úgynevezett system promptok és a finomhangolási folyamatok során minél inkább elszigeteljék a modellt a belső szabályrendszerétől. Ugyanakkor az ilyen esetek emlékeztetnek minket arra, hogy az LLM rendszerek még mindig nem tekinthetők teljesen zárt dobozoknak. A felhasználói kíváncsiság és a kísérletező kedv, kombinálva a modellek nyelvi komplexitásával, gyakran képes áthidalni azokat a védelmi vonalakat, amelyeket a startupok a felhasználók és a technológia védelme érdekében állítottak fel.
Az ügy fontossága abban rejlik, hogy a ChatGPT-hez hasonló modellek egyre mélyebben integrálódnak a mindennapi életünkbe és üzleti folyamatainkba. Amikor a rendszer biztonsági rétegei sérülnek, az nemcsak a cég reputációjának árt, hanem technikai aggályokat is felvet azzal kapcsolatban, mennyire lehet megbízhatóan szabályozni egy ilyen nagyságrendű mesterséges intelligenciát. A jövőben várhatóan még kifinomultabb biztonsági algoritmusokra lesz szükség, hogy a hasonló eseteket megelőzzék, miközben az OpenAI mérnökei számára a legfőbb kihívás az marad, hogy a rendszer nyitottságát és hasznosságát a szigorú biztonsági irányelvekkel összhangba hozzák.