MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Fény derült a Claude belső biztonsági rendszerére és rejtett védőkorlát-promptjaira

Egy Reddit-felhasználó egyszerű üdvözlése váratlan választ váltott ki a Claude-ból, felfedve a chatbot kifinomult belső biztonsági mechanizmusait. A normál válasz helyett az AI egy hallucinációkkal teli kirohanást produkált a szerzői jogról, amit később egy olyan összetett biztonsági rendszerként azonosítottak, amely véletlenül felfedte saját belső logikáját. A felhasználók vizsgálatai alapján a Claude egy előszűrő rendszert használ a szövegminták elemzésére, még mielőtt azok elérnék a fő nyelvi modellt.
Miért fontos?

Ezen rejtett promptok megértése rávilágít arra, miért adnak az AI modellek néha irreleváns vagy hibás válaszokat ártatlan kérésekre, és betekintést nyújt a vállalatok által a visszaélések megelőzésére használt láthatatlan korlátokba. ---

Eredeti forrás megtekintése (angol) →