Az Anthropic vezérigazgatója, Amodei a mechanisztikus értelmezhetőség mellett érvel az AI-biztonság érdekében

ANTHROPIC

Az Anthropic vezérigazgatója, Amodei a mechanisztikus értelmezhetőség mellett érvel az AI-biztonság érdekében

2025. április 28. · MI Történik? · 1 perc olvasás

Dario Amodei, az Anthropic vezérigazgatója új blogbejegyzést tett közzé, amelyben az AI „mechanisztikus értelmezhetőségének” kritikus szükségességét hangsúlyozza. Azzal érvel, hogy a modellek belső működésének megértése az emberiség védőbástyájává válhat, ahogy azok egyre erősebbé válnak.

Amodei hangsúlyozta, hogy az AI különbözik a hagyományos szoftverektől, mert a döntéshozatal organikusan alakul ki, így működése még az alkotók számára is tisztázatlan.
Elárulta, hogy az Anthropic több mint 30 millió „jellemzőt” (feature) térképezett fel a Claude 3 Sonnet modellben, amelyek konkrét fogalmakat képviselnek, amiket a modell képes megérteni és feldolgozni.
A vezérigazgató a végső célt egy megbízható „AI MRI-hez” hasonlította, amellyel diagnosztizálni lehetne a modelleket és jobban megérteni a „fekete dobozukat”.
Kijelentette, hogy az AI gyorsabban fejlődik, mint az értelmezhetőség, így felkészületlenek maradunk az olyan AI-rendszerekre, mint egy „adatközpontnyi zseni”, ami már 2026-ban megérkezhet.

Miért fontos?

Az Anthropic élen jár az AI-biztonság területén, és Amodei esszéje a modellek belső működésének megértését nem csupán technikai kihívásként, hanem a fejlett verziók biztonságos bevezetésének előfeltételeként keretezi. A kérdés az, hogy a többi vezető laboratórium is ilyen türelmes lesz-e – és eddig a válasz nemleges volt. ---

Eredeti forrás megtekintése (angol) →