Az Anthropic áttörése segít az egyedi AI neuronok dekódolásában

ANTHROPIC

Az Anthropic áttörése segít az egyedi AI neuronok dekódolásában

2023. október 9. · MI Történik? · 1 perc olvasás

Az Anthropic kifejlesztett egy új módszert az olyan LLM-ek belső neuronjainak értelmezésére, mint a Claude, segítve a kutatókat a modell gondolkodásmódjának jobb megértésében és dekódolásában.

A neuronok általában számos független koncepcióra reagálnak, ami megnehezíti az elkülönített vizsgálatukat.
Az Anthropic módot talált arra, hogy a neuroncsoportokat egyszerűbb, világosabb jelentéssel bíró „jellemzőkre” (features) bontsa.
Például DNS-sel, jogi szövegekkel és HTML-lel kapcsolatos jellemzőket emeltek ki 500 neuron keverékéből — és egyetlen jellemző stimulálása következetesen kiváltotta a várt modell-viselkedést.
A jellemzők rendszerekbe is kapcsolódnak olyan komplex funkciókhoz, mint a valid HTML kód generálása.

Miért fontos?

Ez a hatalmas áttörés megkönnyíti annak megértését, hogy mi történik, amikor az AI „gondolkodik”. Ez nemcsak az AI safety szempontjából kulcsfontosságú, hanem sokkal nagyobb kontrollt tesz lehetővé a teljes rendszer felett. ---

Eredeti forrás megtekintése (angol) →