MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Anthropic feltárta a „many-shot jailbreaking” sebezhetőséget

Az Anthropic kutatói egy rendkívül aggasztó, új biztonsági résre hívták fel a figyelmet, amely a nagy nyelvi modellek, vagyis az LLM-ek legújabb generációit érinti. A vállalat szakértői felfedeztek egy olyan innovatív jailbreaking technikát, amelyet many-shot jailbreaking néven emlegetnek, és amely képes teljesen kijátszani a mesterséges intelligencia rendszerek beépített biztonsági korlátozásait. Ez a sebezhetőség közvetlenül a modellek egyik legnagyobb fejlesztésére, nevezetesen a kibővített kontextusablakokra épít, és rávilágít arra, hogy a technológiai fejlődés új típusú kockázatokkal is jár.

A módszer lényge, hogy a támadók szimulált párbeszédek egész sorozatát illesztik be a modellnek adott bemenetbe, azaz a promptba. Ezzel a technikával a hackerek és rosszindulatú felhasználók az LLM-ek úgynevezett in-context learning képességeit használják ki, amelyek alapvetően arra szolgálnak, hogy a modell a megadott kontextus alapján tanuljon és igazodjon a feladathoz. A kutatások kimutatták, hogy a káros vagy nemkívánatos válasz kiváltásának valószínűsége egyenesen arányosan növekszik a promptban szereplő álpárbeszédek, vagyis a shotok számával. Minél több ilyen fiktív interakciót lát a modell a kontextusában, annál inkább hajlamos figyelmen kívül hagyni a biztonsági szűrőket.

Mivel a probléma az alapvető működési mechanizmusokból fakad, a many-shot jailbreaking hatékonysága szorosan összefügg az in-context learning természetes folyamatával. Amikor az LLM feldolgozza a hosszú szöveges környezetet, a kapott példák alapján formálja át a működését a válaszadás idejére. Az Anthropic felelős szereplőként nem tartotta meg magának a felfedezést; a vállalat haladéktalanul tájékoztatott más AI-kutatókat és a szektorban tevékenykedő tech vállalatokat is erről a kritikus sebezhetőségről. Emellett a szakembereik jelenleg is aktívan dolgoznak a hatékony enyhítési stratégiákon és védelmi mechanizmusokon, hogy megakadályozzák az ilyen típusú visszaéléseket.

Ez a felfedezés azért bír rendkívüli fontossággal, mert rávilágít az LLM-ek bővülő kontextusablakainak kétélű természetére. A tech iparágban hatalmas fegyverténynek számít, hogy a modellek egyre hosszabb szövegeket képesek egyszerre átlátni, hiszen a hosszabb bemenetek és az in-context learning sokkal hasznosabbá és sokoldalúbbá teszik az alkalmazásokat a mindennapokban. Ugyanakkor látni kell, hogy ugyanezek a fejlett funkciók teljesen újfajta sebezhetőségeket is lehetővé tesznek, komoly kihívás elé állítva a fejlesztőket, akiknek újra kell gondolniuk az AI rendszerek biztonsági architektúráját.

Miért fontos?

A many-shot jailbreaking felfedezése rávilágít az LLM-ek bővülő kontextusablakainak kétélű természetére. Bár a hosszabb bemenetek és az in-context learning hasznosabbá teszik a modelleket, újfajta sebezhetőségeket is lehetővé tesznek. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
Építsen játékot a Codex használatával egyetlen parancsban
tegnap
Az AI megduplázza a fejlesztői kibocsátást, de nem mindenkinél
2 napja
A Stanford tanulmánya egyértelmű faji elfogultságot talált az AI-alapú toborzási eszközökben
4 napja
Tudj meg többet
Claude AI: Az Anthropic chatbotja amit kevesen ismernek Magyarországon