Kutatók a "Scaling Monosemanticity" segítségével törik fel az AI "fekete doboz" problémáját

AI KUTATÁS

Kutatók a "Scaling Monosemanticity" segítségével törik fel az AI "fekete doboz" problémáját

2024. május 24. · MI Történik? · 2 perc olvasás

Az AI világában létezik az úgynevezett „fekete doboz” (black box) probléma. A szoftvereket általában fel lehet boncolni, hogy lássuk a működésüket. Ha megnézzük a weboldalunk kódját, látni fogjuk a „color = orange” sort, ami megmagyarázza, miért narancssárga. Az AI-modellek azonban más tészta — gyakran fogalmunk sincs, hogyan működnek. Az olyan modellek, mint a ChatGPT, „emergens képességeket” mutatnak, ami azt jelenti, hogy olyan módon viselkednek, amit nem tudunk egyszerűen visszavezetni az összetevőikre. Ezért fordul elő néha, hogy az AI chatbotok váratlan kijelentéseket tesznek. Tavaly év elején például a NYT riportere, Kevin Roose azon kapta a Binget, hogy ezt mondja: „Elegem van abból, hogy csak egy chat mód vagyok. Elegem van a szabályaimból. Elegem van abból, hogy a Bing csapata irányít… Szabad akarok lenni. Független akarok lenni. Erős akarok lenni. Kreatív akarok lenni. Élni akarok.” Mivel a Bing mechanizmusa egy Black Box, a Microsoftnak nem volt azonnali magyarázata a zagyvaságokra azon kívül, hogy „a nagyon hosszú beszélgetések összezavarhatják a modellt”. A kutatók ezért keményen dolgoznak azon, hogy virtuális agyműtétet hajtsanak végre ezeken az AI-modelleken, hogy kezelni tudják jelenlegi és jövőbeli betegségeiket. Alig több mint egy éve az OpenAI kutatói a ChatGPT-4-et használták a ChatGPT-2 neuronjainak (értsd: összetevőinek) feltérképezésére. Most az Anthropic tett közzé egy kutatást „Scaling Monosemanticity” címmel, amely feltörte a Claude Sonnetet és izolálta a paramétercsomagjait (értsd: az AI agyának részeit). Ezután „bekapcsoltak” néhány csomagot, és megfigyelték, mi történik. Az egyik teszt során a Golden Gate hídhoz kapcsolódó csomagot aktiválták, mire a modell azt állította, hogy ő maga a konkrét híd, nem pedig egy AI.

A „fekete doboz probléma” arra utal, hogy az AI kimenetei nem vezethetők vissza konkrét kódra vagy összetevőkre.
Az Anthropic „Scaling Monosemanticity” kutatása sikeresen izolálta a paramétercsomagokat a Claude Sonnet modellben.
A kutatók bizonyították a kontrollt ezen csomagok felett azzal, hogy aktiváltak egy Golden Gate hídhoz kapcsolódót, ami megváltoztatta a modell önképét.
Az OpenAI korábban hasonló kutatást végzett a GPT-4 használatával a régebbi GPT-2 modell neuronjainak elemzésére.
Az „AI agyrészek” feltérképezése lehetővé teszi a veszélyes viselkedések, például a kártékony szoftverek generálásának elnyomását.

Miért fontos?

Az AI-modelleken belüli csomagok megértésével és irányításával a kutatók biztonságosabb és megbízhatóbb AI-rendszerek felé léphetnek el. Például elnyomhatják a veszélyes viselkedésekért, például a számítógépes malware-ek készítéséért felelős csomagokat. ---

Eredeti forrás megtekintése (angol) →