Az Anthropic „perszónavektorokat” azonosított az AI modellek viselkedésének irányításához

2025. augusztus 5. · MI Történik? · 1 perc olvasás

Az Anthropic új kutatása során úgynevezett „perszónavektorokat” azonosítottak a nagy nyelvi modellekben (LLM). Ezek a vektorok olyan belső mintázatok, amelyek specifikus személyiségjegyeket vagy viselkedési hajlamokat képviselnek. Ezeknek a vektoroknak az izolálásával a kutatók potenciálisan elősegíthetik vagy mérsékelhetik a specifikus viselkedésformákat – például segítőkészebb jellemvonások felé terelhetik a modellt, vagy csökkenthetik a károsakat – anélkül, hogy kizárólag külső promptokra hagyatkoznának.

Belső perszóna-reprezentációkat fedeztek fel a modell architektúráján belül.
Módszereket találtak a „gonosz” vagy káros viselkedések mérséklésére specifikus vektorok módosításával.
Technikaibb, részletesebb megközelítést biztosít a modell-összehangoláshoz (alignment) és a biztonsághoz.

Miért fontos?

Annak megértése, hogy a modellek belső mechanizmusai hogyan vesznek fel bizonyos perszónákat, lehetővé teszi a fejlesztők számára, hogy közvetlen architekturális beavatkozással biztonságosabb és megbízhatóbb AI rendszereket építsenek. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Perplexity és a Harvard tanulmánya feltérképezi az összetett AI ágens alapú munka felé való eltolódást

4 napja

Az MIT tanulmánya azonosítja a legfőbb AI-kockázatokat és a felelős intézményeket

5 napja

Tanulmány: Az AI tutorok felülmúlják a jogi kart

2026. június 4.

Tudj meg többet

AI a kutatásban és oktatásban: Hatékony irodalomkutatás és forráselemzés

Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?