AI KUTATÁS
Az Anthropic „perszónavektorokat” azonosított az AI modellek viselkedésének irányításához
Az Anthropic új kutatása során úgynevezett „perszónavektorokat” azonosítottak a nagy nyelvi modellekben (LLM). Ezek a vektorok olyan belső mintázatok, amelyek specifikus személyiségjegyeket vagy viselkedési hajlamokat képviselnek. Ezeknek a vektoroknak az izolálásával a kutatók potenciálisan elősegíthetik vagy mérsékelhetik a specifikus viselkedésformákat – például segítőkészebb jellemvonások felé terelhetik a modellt, vagy csökkenthetik a károsakat – anélkül, hogy kizárólag külső promptokra hagyatkoznának.
- Belső perszóna-reprezentációkat fedeztek fel a modell architektúráján belül.
- Módszereket találtak a „gonosz” vagy káros viselkedések mérséklésére specifikus vektorok módosításával.
- Technikaibb, részletesebb megközelítést biztosít a modell-összehangoláshoz (alignment) és a biztonsághoz.
Miért fontos?
Annak megértése, hogy a modellek belső mechanizmusai hogyan vesznek fel bizonyos perszónákat, lehetővé teszi a fejlesztők számára, hogy közvetlen architekturális beavatkozással biztonságosabb és megbízhatóbb AI rendszereket építsenek. ---