MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Egy tanulmány szerint az LLM beágyazások (embeddings) összhangban vannak az agy magas szintű vizuális aktivitásával

A nyelvi modellek (és tágabb értelemben a nagy léptékű generatív modellek) hajlamosak a világ komplex belső reprezentációinak kialakítására, amelyek egyre inkább megfelelnek annak, ahogyan szerintünk az emberek leképezik a világot – derül ki a berlini Freie Universitat, az Osnabrücki Egyetem, a Bernstein Center for Computational Neuroscience, a Minnesotai Egyetem és a Montreali Egyetem új kutatásából. „Azt a hipotézist vizsgáljuk, miszerint az emberi agy a retina bemeneteiből érkező vizuális információkat hierarchikus számítások sorozatán keresztül egy olyan magas szintű, többdimenziós térbe vetíti, amely közelíthető a jelenetleírások LLM beágyazásaival” – írják a szerzők. „Kimutatjuk, hogy a vizuális rendszer valóban konvergálhat a különböző magasabb szintű vizuális régiókban olyan reprezentációk felé, amelyek összehangolódnak az LLM beágyazásokkal.” A kutatók a Natural Scenes Dataset (NSD) adatait vizsgálták, amely az emberi agyi válaszok fMRI adatait rögzíti több ezer összetett természeti jelenet megtekintése közben (a Microsoft COCO adatbázisából). Az LLM-ek és az emberi agy közötti különbségek elemzéséhez az adatbázis képaláírásait használták, és egy transformer architektúrán alapuló mondat-kódolót alkalmaztak, hogy ezeket a leírásokat egy LLM beágyazási terébe vetítsék. Ezután összevetették a képaláírások LLM beágyazásaiból készült reprezentációs különbségi mátrixokat (RDM) azokkal az RDM-ekkel, amelyeket a résztvevők agyi aktivitási mintázataiból nyertek a megfelelő jelenetek nézése közben. Az eredmények nagyfokú hasonlóságot mutatnak: „Az LLM beágyazások képesek megjósolni a vizuálisan kiváltott agyi válaszokat a ventrális, laterális és parietális áramlatok magasabb szintű vizuális területein.” Más szóval, a jelenetleírások LLM beágyazásai sikeresen jellemzik a természetes jelenetek megtekintése által kiváltott agyi aktivitást. „Azt sugalljuk, hogy az LLM beágyazások azáltal rögzítik a vizuálisan kiváltott agyi aktivitást, hogy tükrözik a világ statisztikai szabályszerűségeit, amelyeket kiterjedt nyelvi tanításuk során sajátítottak el, a szenzoros feldolgozással összhangban lévő módon.”
Miért fontos?

Bár az LLM-ek és az agyak különböző alapokon (szubsztrátumokon) nyugszanak, a kutatás szerint ezek a különbségek nem biztos, hogy számítanak a magas szintű kogníció szempontjából. Az AI-rendszerek az emberéhez hasonló reprezentációs gazdagságot mutatnak, ami arra utal, hogy olyan rendszerekkel van dolgunk, amelyeknek ugyanolyan gazdag belső valóságreprezentációjuk van, mint nekünk, és nem csupán „sztochasztikus papagájok”. ---

Eredeti forrás megtekintése (angol) →