ANTHROPIC
Az Anthropic vezérigazgatója, Amodei a mechanisztikus értelmezhetőség mellett érvel az AI-biztonság érdekében
Dario Amodei, az Anthropic vezérigazgatója új blogbejegyzést tett közzé, amelyben az AI „mechanisztikus értelmezhetőségének” kritikus szükségességét hangsúlyozza. Azzal érvel, hogy a modellek belső működésének megértése az emberiség védőbástyájává válhat, ahogy azok egyre erősebbé válnak.
- Amodei hangsúlyozta, hogy az AI különbözik a hagyományos szoftverektől, mert a döntéshozatal organikusan alakul ki, így működése még az alkotók számára is tisztázatlan.
- Elárulta, hogy az Anthropic több mint 30 millió „jellemzőt” (feature) térképezett fel a Claude 3 Sonnet modellben, amelyek konkrét fogalmakat képviselnek, amiket a modell képes megérteni és feldolgozni.
- A vezérigazgató a végső célt egy megbízható „AI MRI-hez” hasonlította, amellyel diagnosztizálni lehetne a modelleket és jobban megérteni a „fekete dobozukat”.
- Kijelentette, hogy az AI gyorsabban fejlődik, mint az értelmezhetőség, így felkészületlenek maradunk az olyan AI-rendszerekre, mint egy „adatközpontnyi zseni”, ami már 2026-ban megérkezhet.
Miért fontos?
Az Anthropic élen jár az AI-biztonság területén, és Amodei esszéje a modellek belső működésének megértését nem csupán technikai kihívásként, hanem a fejlett verziók biztonságos bevezetésének előfeltételeként keretezi. A kérdés az, hogy a többi vezető laboratórium is ilyen türelmes lesz-e – és eddig a válasz nemleges volt. ---