Fény derült a Claude belső biztonsági rendszerére és rejtett védőkorlát-promptjaira

AI ESZKÖZÖK

Fény derült a Claude belső biztonsági rendszerére és rejtett védőkorlát-promptjaira

2024. november 13. · MI Történik? · 1 perc olvasás

Egy Reddit-felhasználó egyszerű üdvözlése váratlan választ váltott ki a Claude-ból, felfedve a chatbot kifinomult belső biztonsági mechanizmusait. A normál válasz helyett az AI egy hallucinációkkal teli kirohanást produkált a szerzői jogról, amit később egy olyan összetett biztonsági rendszerként azonosítottak, amely véletlenül felfedte saját belső logikáját. A felhasználók vizsgálatai alapján a Claude egy előszűrő rendszert használ a szövegminták elemzésére, még mielőtt azok elérnék a fő nyelvi modellt.

A Claude „tokenekre” bontja a felhasználói üzeneteket, hogy specifikus mintákat keressen bennük.
Egy előszűrő riasztási rendszer ellenőrzi az üzeneteket az esetleges szabálysértések miatt, mielőtt azok a fő modellhez kerülnének.
A rendszer „System promptokat” használ az általános viselkedéshez, és „Injekciókat” a specifikus biztonsági triggerekhez.
A felhasználók néha rávehetik a Claude-ot saját rejtett promptjai elemzésére és kritizálására a beszélgetési előzmények lekérésével.
A biztonsági funkciók olykor ütközhetnek a jogos feladatokkal, ami több hibához vezethet a korrektúrázás vagy szövegszerkesztés során.

Miért fontos?

Ezen rejtett promptok megértése rávilágít arra, miért adnak az AI modellek néha irreleváns vagy hibás válaszokat ártatlan kérésekre, és betekintést nyújt a vállalatok által a visszaélések megelőzésére használt láthatatlan korlátokba. ---

Eredeti forrás megtekintése (angol) →