Egy tanulmány szerint az LLM beágyazások (embeddings) összhangban vannak az agy magas szintű vizuális aktivitásával

2025. augusztus 11. · MI Történik? · 2 perc olvasás

A nyelvi modellek (és tágabb értelemben a nagy léptékű generatív modellek) hajlamosak a világ komplex belső reprezentációinak kialakítására, amelyek egyre inkább megfelelnek annak, ahogyan szerintünk az emberek leképezik a világot – derül ki a berlini Freie Universitat, az Osnabrücki Egyetem, a Bernstein Center for Computational Neuroscience, a Minnesotai Egyetem és a Montreali Egyetem új kutatásából. „Azt a hipotézist vizsgáljuk, miszerint az emberi agy a retina bemeneteiből érkező vizuális információkat hierarchikus számítások sorozatán keresztül egy olyan magas szintű, többdimenziós térbe vetíti, amely közelíthető a jelenetleírások LLM beágyazásaival” – írják a szerzők. „Kimutatjuk, hogy a vizuális rendszer valóban konvergálhat a különböző magasabb szintű vizuális régiókban olyan reprezentációk felé, amelyek összehangolódnak az LLM beágyazásokkal.” A kutatók a Natural Scenes Dataset (NSD) adatait vizsgálták, amely az emberi agyi válaszok fMRI adatait rögzíti több ezer összetett természeti jelenet megtekintése közben (a Microsoft COCO adatbázisából). Az LLM-ek és az emberi agy közötti különbségek elemzéséhez az adatbázis képaláírásait használták, és egy transformer architektúrán alapuló mondat-kódolót alkalmaztak, hogy ezeket a leírásokat egy LLM beágyazási terébe vetítsék. Ezután összevetették a képaláírások LLM beágyazásaiból készült reprezentációs különbségi mátrixokat (RDM) azokkal az RDM-ekkel, amelyeket a résztvevők agyi aktivitási mintázataiból nyertek a megfelelő jelenetek nézése közben. Az eredmények nagyfokú hasonlóságot mutatnak: „Az LLM beágyazások képesek megjósolni a vizuálisan kiváltott agyi válaszokat a ventrális, laterális és parietális áramlatok magasabb szintű vizuális területein.” Más szóval, a jelenetleírások LLM beágyazásai sikeresen jellemzik a természetes jelenetek megtekintése által kiváltott agyi aktivitást. „Azt sugalljuk, hogy az LLM beágyazások azáltal rögzítik a vizuálisan kiváltott agyi aktivitást, hogy tükrözik a világ statisztikai szabályszerűségeit, amelyeket kiterjedt nyelvi tanításuk során sajátítottak el, a szenzoros feldolgozással összhangban lévő módon.”

Amikor az agy két képet hasonlónak talál, az LLM is hasonlónak találja azok képaláírásait.
Amikor az agy két képet különbözőnek talál, az LLM is különbözőnek találja a képaláírásaikat.
Az LLM beágyazások és a vizuálisan kiváltott aktivitások közötti leképezés új módszereket kínál az agyi információfeldolgozás jellemzésére.

Miért fontos?

Bár az LLM-ek és az agyak különböző alapokon (szubsztrátumokon) nyugszanak, a kutatás szerint ezek a különbségek nem biztos, hogy számítanak a magas szintű kogníció szempontjából. Az AI-rendszerek az emberéhez hasonló reprezentációs gazdagságot mutatnak, ami arra utal, hogy olyan rendszerekkel van dolgunk, amelyeknek ugyanolyan gazdag belső valóságreprezentációjuk van, mint nekünk, és nem csupán „sztochasztikus papagájok”. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Bezos 12 milliárd dollárral népszerűsíti az AI „általános mérnököt”

most

A Unitree humanoid robotja meghódított egy 20 000 láb magas vulkánt Ecuadorban

3 órája

Az OpenAI drasztikus API árcsökkentést fontolgat és az Ona infrastruktúra-startup felvásárlását tervezi

5 órája