ANTHROPIC
Az Anthropic áttörése segít az egyedi AI neuronok dekódolásában
Az Anthropic kifejlesztett egy új módszert az olyan LLM-ek belső neuronjainak értelmezésére, mint a Claude, segítve a kutatókat a modell gondolkodásmódjának jobb megértésében és dekódolásában.
- A neuronok általában számos független koncepcióra reagálnak, ami megnehezíti az elkülönített vizsgálatukat.
- Az Anthropic módot talált arra, hogy a neuroncsoportokat egyszerűbb, világosabb jelentéssel bíró „jellemzőkre” (features) bontsa.
- Például DNS-sel, jogi szövegekkel és HTML-lel kapcsolatos jellemzőket emeltek ki 500 neuron keverékéből — és egyetlen jellemző stimulálása következetesen kiváltotta a várt modell-viselkedést.
- A jellemzők rendszerekbe is kapcsolódnak olyan komplex funkciókhoz, mint a valid HTML kód generálása.
Miért fontos?
Ez a hatalmas áttörés megkönnyíti annak megértését, hogy mi történik, amikor az AI „gondolkodik”. Ez nemcsak az AI safety szempontjából kulcsfontosságú, hanem sokkal nagyobb kontrollt tesz lehetővé a teljes rendszer felett. ---