Az Anthropic valódi beszélgetések elemzésével térképezi fel az AI erkölcsi iránytűjét

ANTHROPIC

Az Anthropic valódi beszélgetések elemzésével térképezi fel az AI erkölcsi iránytűjét

2025. április 22. · MI Történik? · 1 perc olvasás

Az Anthropic közzétett egy tanulmányt, amelyben több százezer valós AI-beszélgetést elemeztek, hogy megértsék, hogyan hoznak erkölcsi ítéleteket az olyan modellek, mint a Claude – létrehozva az első nagyszabású térképet a modell értékeiről a mindennapi interakciók során.

A kutatók több mint 300 000 valós (de névtelenített) beszélgetést vizsgáltak meg, hogy megtalálják és kategorizálják az AI által kifejezett 3307 egyedi értéket.
Ötféle értéktípust találtak (Gyakorlati, Tudásalapú, Társadalmi, Védelmi, Személyes), amelyek közül a Gyakorlati és a Tudásalapú volt a leggyakoribb.
A segítőkészség és a professzionalizmus fordult elő a leggyakrabban, míg az etikai értékek inkább a káros kérések elutasításakor jelentek meg.
A Claude értékei a kontextustól függően is változtak, például az „egészséges határokra” helyezte a hangsúlyt a párkapcsolati tanácsadásban, szemben az „emberi cselekvőképességgel” az AI-etikai vitákban.

Miért fontos?

Az AI egyre inkább befolyásolja a való világbeli döntéseket és kapcsolatokat, ezért minden eddiginél fontosabb megérteni a tényleges értékeiket. Ez a tanulmány az összehangolási (alignment) vitát konkrétabb megfigyelések irányába tereli, feltárva, hogy az AI erkölcse és értékei inkább kontextusfüggőek és szituációsak, semmint statikus nézőpontok.

Eredeti forrás megtekintése (angol) →