ANTHROPIC
Az Anthropic valódi beszélgetések elemzésével térképezi fel az AI erkölcsi iránytűjét
Az Anthropic közzétett egy tanulmányt, amelyben több százezer valós AI-beszélgetést elemeztek, hogy megértsék, hogyan hoznak erkölcsi ítéleteket az olyan modellek, mint a Claude – létrehozva az első nagyszabású térképet a modell értékeiről a mindennapi interakciók során.
- A kutatók több mint 300 000 valós (de névtelenített) beszélgetést vizsgáltak meg, hogy megtalálják és kategorizálják az AI által kifejezett 3307 egyedi értéket.
- Ötféle értéktípust találtak (Gyakorlati, Tudásalapú, Társadalmi, Védelmi, Személyes), amelyek közül a Gyakorlati és a Tudásalapú volt a leggyakoribb.
- A segítőkészség és a professzionalizmus fordult elő a leggyakrabban, míg az etikai értékek inkább a káros kérések elutasításakor jelentek meg.
- A Claude értékei a kontextustól függően is változtak, például az „egészséges határokra” helyezte a hangsúlyt a párkapcsolati tanácsadásban, szemben az „emberi cselekvőképességgel” az AI-etikai vitákban.
Miért fontos?
Az AI egyre inkább befolyásolja a való világbeli döntéseket és kapcsolatokat, ezért minden eddiginél fontosabb megérteni a tényleges értékeiket. Ez a tanulmány az összehangolási (alignment) vitát konkrétabb megfigyelések irányába tereli, feltárva, hogy az AI erkölcse és értékei inkább kontextusfüggőek és szituációsak, semmint statikus nézőpontok.