Idegtudományi keretrendszereket javasolnak az AI technikai biztonságának és összehangolásának fokozására
Az Amaranth Foundation, a Princeton University, az MIT, az Allen Institute, a Basis, a Yale University, a Convergent Research, az NYU, az E11 Bio és a Stanford University kutatói egy 100 oldalas tanulmányt/manifesztumot tettek közzé, amelyben amellett érvelnek, hogy az idegtudomány „olyan kulcsokat adhat az AI technikai biztonságához, amelyek jelenleg alulkutatottak és kihasználatlanok”. A dolgozatot az ágensek – vagyis az emberi beavatkozás nélkül hosszú műveletsorokat végrehajtó AI rendszerek – küszöbön álló megjelenése hívta életre.
A tanulmány nagyszabású projekteket javasol biztonságosabb AI rendszerek építésére az érzékelő rendszerek visszafejtése és biofizikailag részletes modellek alkotása révén. A szerzők úgy vélik, az evolúció azért formálta az emberi agyat szigorú viselkedési korlátok közé, hogy lehetővé tegye a társadalmi együttélést. E biológiai korlátok megértésével a fejlesztők képesek lehetnek átültetni ezeket a tapasztalatokat a mesterséges intelligenciákba a biztonságosabb összehangolás (alignment) érdekében.
- Az érzékelő rendszerek reprezentációinak visszafejtése (reverse engineering).
- Testet öltött (embodied) digitális ikrek és biofizikailag részletes modellek építése.
- Jobb kognitív architektúrák fejlesztése és az agyi veszteségfüggvények (loss functions) meghatározása.
- Idegtudomány által inspirált módszerek alkalmazása a mechanisztikus értelmezhetőség (mechanistic interpretability) javítására.
- Nagy sávszélességű neurális interfészek fejlesztése, beleértve a funkcionális ultrahangos képalkotást.
- Áramkörök alulról felfelé történő rekonstrukciója, beleértve az egér agykérgének szimulációját pont-neuron szinten.
- Multimodális alapmodellek (foundation models) fejlesztése az idegtudomány számára különböző fajok esetében.
Miért fontos?
A probléma, amit ez a munka körbejár, igen összetett. Mennyi származik a biztonságból az emberi huzalozás belső jellemzőiből, és mennyi azokból a normatív struktúrákból (családok, iskolák, kultúrák), amelyekben felnövünk? Más szóval: az emberi viselkedés mennyiben genetikai meghatározottság (nature) és mennyiben neveltetés (nurture) eredménye? Ez még nem tisztázott, de az idegtudomány és az AI biztonság érintkezési pontjainak tanulmányozása jobb „alapigazságokat” (ground truth) adhat a kérdés megválaszolásához.