AI ESZKÖZÖK
Fény derült a Claude belső biztonsági rendszerére és rejtett védőkorlát-promptjaira
Egy Reddit-felhasználó egyszerű üdvözlése váratlan választ váltott ki a Claude-ból, felfedve a chatbot kifinomult belső biztonsági mechanizmusait. A normál válasz helyett az AI egy hallucinációkkal teli kirohanást produkált a szerzői jogról, amit később egy olyan összetett biztonsági rendszerként azonosítottak, amely véletlenül felfedte saját belső logikáját. A felhasználók vizsgálatai alapján a Claude egy előszűrő rendszert használ a szövegminták elemzésére, még mielőtt azok elérnék a fő nyelvi modellt.
- A Claude „tokenekre” bontja a felhasználói üzeneteket, hogy specifikus mintákat keressen bennük.
- Egy előszűrő riasztási rendszer ellenőrzi az üzeneteket az esetleges szabálysértések miatt, mielőtt azok a fő modellhez kerülnének.
- A rendszer „System promptokat” használ az általános viselkedéshez, és „Injekciókat” a specifikus biztonsági triggerekhez.
- A felhasználók néha rávehetik a Claude-ot saját rejtett promptjai elemzésére és kritizálására a beszélgetési előzmények lekérésével.
- A biztonsági funkciók olykor ütközhetnek a jogos feladatokkal, ami több hibához vezethet a korrektúrázás vagy szövegszerkesztés során.
Miért fontos?
Ezen rejtett promptok megértése rávilágít arra, miért adnak az AI modellek néha irreleváns vagy hibás válaszokat ártatlan kérésekre, és betekintést nyújt a vállalatok által a visszaélések megelőzésére használt láthatatlan korlátokba. ---