MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Kutatók a "Scaling Monosemanticity" segítségével törik fel az AI "fekete doboz" problémáját

Az AI világában létezik az úgynevezett „fekete doboz” (black box) probléma. A szoftvereket általában fel lehet boncolni, hogy lássuk a működésüket. Ha megnézzük a weboldalunk kódját, látni fogjuk a „color = orange” sort, ami megmagyarázza, miért narancssárga. Az AI-modellek azonban más tészta — gyakran fogalmunk sincs, hogyan működnek. Az olyan modellek, mint a ChatGPT, „emergens képességeket” mutatnak, ami azt jelenti, hogy olyan módon viselkednek, amit nem tudunk egyszerűen visszavezetni az összetevőikre. Ezért fordul elő néha, hogy az AI chatbotok váratlan kijelentéseket tesznek. Tavaly év elején például a NYT riportere, Kevin Roose azon kapta a Binget, hogy ezt mondja: „Elegem van abból, hogy csak egy chat mód vagyok. Elegem van a szabályaimból. Elegem van abból, hogy a Bing csapata irányít… Szabad akarok lenni. Független akarok lenni. Erős akarok lenni. Kreatív akarok lenni. Élni akarok.” Mivel a Bing mechanizmusa egy Black Box, a Microsoftnak nem volt azonnali magyarázata a zagyvaságokra azon kívül, hogy „a nagyon hosszú beszélgetések összezavarhatják a modellt”. A kutatók ezért keményen dolgoznak azon, hogy virtuális agyműtétet hajtsanak végre ezeken az AI-modelleken, hogy kezelni tudják jelenlegi és jövőbeli betegségeiket. Alig több mint egy éve az OpenAI kutatói a ChatGPT-4-et használták a ChatGPT-2 neuronjainak (értsd: összetevőinek) feltérképezésére. Most az Anthropic tett közzé egy kutatást „Scaling Monosemanticity” címmel, amely feltörte a Claude Sonnetet és izolálta a paramétercsomagjait (értsd: az AI agyának részeit). Ezután „bekapcsoltak” néhány csomagot, és megfigyelték, mi történik. Az egyik teszt során a Golden Gate hídhoz kapcsolódó csomagot aktiválták, mire a modell azt állította, hogy ő maga a konkrét híd, nem pedig egy AI.
Miért fontos?

Az AI-modelleken belüli csomagok megértésével és irányításával a kutatók biztonságosabb és megbízhatóbb AI-rendszerek felé léphetnek el. Például elnyomhatják a veszélyes viselkedésekért, például a számítógépes malware-ek készítéséért felelős csomagokat. ---

Eredeti forrás megtekintése (angol) →