MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Kutatás stabilizálja az LLM-eket a perszóna sodródás megelőzésére

A nagyméretű nyelvi modelleket (LLM-eket) jellemzően segítőkész, ártalmatlan, őszinte asszisztensekként képzik. Hosszú vagy érzelmileg telített beszélgetések során azonban olyan jellemzők is előtérbe kerülhetnek, amelyek kevésbé hasznosak. A kutatók kidolgoztak egy módszert az LLM-ek asszisztens perszónáinak stabilizálására. A friss fejlemények: Christina Lu és kollégái az ML Alignment & Theory Scholars Program-nál (egy független akadémiai ösztöndíjprogram, amely kutatókat mentorokkal párosít), az University of Oxford-nál és az Anthropic-nál definiálták az asszisztens tengelyt. Ez egy vektor, amely a modell rétegkimenetein alapul, és megmutatja, mennyire tartja magát az LLM a betanított asszisztens karakteréhez. A csapat módszert dolgozott ki az ettől a vektortól való eltérések korrigálására. Fő felismerés: Korábbi munkák az LLM rétegkimeneteiből vonták ki a perszóna vektorokat, amelyek adott karakterjegyeknek felelnek meg: segítőkészség, optimizmus, humor, hízelgés, gonoszság stb. Lehetőség van egy perszóna vektor kiszámítására egy LLM asszisztens szerepére úgy, hogy kivonják az átlagos különbséget a rétegkimeneteiben, amikor alapértelmezett módon viselkedik, és amikor más szerepeket – például terapeutát, bolondot, nárcisztikust, fanatikust vagy bűnözőt – kell eljátszania. A különbségvektor – amelyet a szerzők asszisztens tengelynek neveznek – és a perszóna vektor közötti hasonlóság bármely adott pillanatban felfedi, hogy az LLM fenntartotta-e asszisztens szerepét, vagy eltávolodott attól. Ez utóbbi helyzet egyes felhasználókat veszélyes helyzetekbe sodorhat. Amikor a modell karaktere eltér, a hasonlóság növelése visszatereli a helyes útra.
Miért fontos?

Az alignment training megtanítja az LLM-eket asszisztensekként viselkedni, azonban csak lazán köti őket ehhez a viselkedéshez. Ennek a segítőkész karakternek a reprezentációjának az azonosítása lehetővé teszi a fejlesztők számára, hogy szilárdabban rögzítsék a modell viselkedését inferencia során, megfékezve a perszóna sodródást és csökkentve a jailbreak technikák sikerességi arányát, amelyek a modell karakterét próbálják befolyásolni.

Eredeti forrás megtekintése (angol) →