A Meta AI-t használ az agyi szkennelésekből származó vizuális reprezentációk dekódolására
A Facebook kutatói egy háromrészes AI-rendszert fejlesztettek ki, amely agyi szkennerek adatait használva nagyjából megtippeli a valaki elméjében megjelenő vizuális képeket. „Olyan AI-rendszert mutatunk be, amely képes az agyban kibontakozó vizuális reprezentációk dekódolására, példátlan időbeli felbontással” – írja a vállalat egy blogbejegyzésben.
Részletek: A kutatók egy háromrészes rendszert építettek, amely egy kép-enkóderből, egy agyi enkóderből és egy kép-dekóderből áll. A rendszert magnetoencephalográfiás (MEG) és funkcionális mágneses rezonanciavizsgálatos (fMRI) agyi képalkotó rendszerekkel tanították. Bár az fMRI esetében már sok korábbi kutatás létezik, a MEG esetében kevesebb – pedig a MEG fontos, mert sokkal gyorsabb: az fMRI agyi pillanatképek pár másodpercenként készülhetnek, míg a MEG másodpercenként több ezer agyi aktivitásmérést végezhet.
Más szóval, az fMRI azt jelenti, hogy pár másodpercenként tudom olvasni a gondolataidat. A MEG azt jelenti, hogy másodpercenként többször is láthatom, ahogy a gondolataid változnak. Ezzel a kutatással pedig a szó szoros értelmében vett „látást” értem.
Hogyan csinálták: „A kép-enkóder az agytól függetlenül hozza létre a kép reprezentációinak gazdag készletét. Az agyi enkóder ezután megtanulja a MEG-jeleket ezekhez a képbeágyazásokhoz igazítani. Végül a kép-dekóder generál egy hihető képet az agyi reprezentációk alapján” – írják. A rendszert egy egészséges önkéntesektől származó MEG-felvételek nyilvános adatbázisán tanították, amelyet a Things nevű, tudományos kutatókból álló nemzetközi konzorcium tett közzé. Több különböző architektúrát is kipróbáltak, és úgy találták, hogy a DINOv2 teljesít a legjobban. A modellt fMRI képeken is tesztelték, ahol szintén lényegesen jobb minőséget értek el.
Működik? Igen (bár némi hallucinációval): Megközelítésük jobban működik más módszereknél, és az eredmények minőségi szempontból nagyon meggyőzőek – érdemes megnézni a blogbejegyzést. A modellek helyesen generálnak repülőgépet repülőgépre, lovat lóra, fürdőszobai mosdót mosdóra válaszul, és így tovább. Van bennük egyfajta hallucinációs jelleg is, mivel nem pontosan ugyanazt hozzák létre – például egy mosdókagyló képe az eredetin lehet sima fal előtt, de a generált képen csempézett fal előtt jelenik meg.
- Egy háromrészes rendszert építettek kép-enkóderrel, agyi enkóderrel és kép-dekóderrel.
- MEG-jeleket használnak, amelyek másodpercenként több ezer mérést tesznek lehetővé a nagy időbeli felbontás érdekében.
- A tesztelt architektúrák közül a DINOv2 kiemelkedően jól teljesített.
- A rendszer a MEG-jeleket a képbeágyazásokhoz igazítja az észlelt látvány rekonstruálásához.
- Bár az eredmények tartalmaznak némi hallucinációt, minőségi szempontból nagy pontosságot mutatnak a tárgyak kategorizálásában.
Miért fontos?
Az ehhez hasonló kutatások megmutatják, hogy az AI fejlődésével hogyan fog masszívan bővülni a tudásunk a saját agyunkról és kognitív folyamatainkról. Mesterséges agyakat építeni nagyszerű dolog, de talán még nagyszerűbb azokat az emberi megismerés és az „id” mélységeinek feltárására használni. „Összességében ezek az eredmények fontos lépést jelentenek az emberi agyban folyamatosan zajló vizuális folyamatok dekódolása felé” – írják. ---