AZ ÚJ HATÁROK
Kutatók idegen organizmusokként tanulmányozzák az AI modelleket az értelmezhetőség megoldása érdekében
A "black box" (fekete doboz) probléma továbbra is fennáll: emberek százmilliói használnak nagy nyelvi modelleket (LLM) nap mint nap, de még az alkotóik sem értik teljesen a működésüket. Az MIT Tech Review új cikke azt járja körül, hogyan kezelik a kutatók az LLM-eket idegen organizmusokként – rétegről rétegre boncolva őket, hogy feltárják, mi történik belül.
Az LLM-ek megértése. A kutatók két technikát alkalmaznak az LLM-ek működésének jobb megértéséhez. A mechanisztikus értelmezhetőség (mechanistic interpretability) másodlagos modelleket használ az aktivációk LLM-en belüli mozgásának nyomon követésére, ami szinte olyan, mint egy MRI az AI számára. A gondolatmenet-monitorozás (chain-of-thought monitoring) egy érvelő modell belső "piszkozatát" olvassa a feladatmegoldás közben – mintha a belső monológját hallgatnánk.
Amit felfedeznek, az különös. Az LLM-ek nem úgy verifikálják a tényeket, mint az emberek. Ha megkérdezzük a Claude-ot: "Sárga a banán?" és "Igaz, hogy a banán sárga?", mindkét válasz igen lesz, de ezek a modell teljesen eltérő részeiből érkeznek. Az egyik rész ismeri a tényt, a másik pedig a tényekkel kapcsolatos állításokat értékeli. Nem feltétlenül létezik egy központi "igazságforrás", amely fenntartaná a következetességet – ezért mondanak ellent maguknak oly könnyen a chatbotok.
- A mechanisztikus értelmezhetőség úgy követi nyomon az aktivációkat, mint egy MRI az AI számára
- A gondolatmenet-monitorozás lehetővé teszi a kutatók számára a belső "piszkozatok" olvasását
- A kutatások szerint a tényszerű tudás és az állítások értékelése a modell különböző részeiből származik
- Az AI modellek jelenleg nélkülözik a következetesség fenntartásához szükséges központi igazságforrást
Miért fontos?
Az LLM-ek jobb megértése jelenleg a technológiai szektor egyik legfontosabb kezdeményezése lehet. Ezek a modellek hétről hétre egyre mélyebben beépülnek mindenbe a toborzástól az egészségügyig. Valójában azonban a jövőnket egy olyan intelligenciára alapozzuk, amelyet nem értünk teljes mértékben. ---