Egy tanulmány hasonlóságot talált az emberi neurokogníció és a nagy nyelvi modellek érvelése között
Az Amszterdami Egyetem kutatói összefüggéseket fedeztek fel aközött, hogyan érvelnek a nyelvi modellek és az emberek az absztrakt sorozatokkal kapcsolatban. A kutatás a legújabb azon vizsgálatok sorában, amelyek meglepő hasonlóságokat mutatnak nemcsak az AI-rendszerek képességei, hanem aközött is, ahogyan a problémák az agyban és az LLM-ek belsejében megjelenítődnek. A szerzők kiterjesztik az "emberi és az LLM-ek neurális reprezentációit perceptuális és nyelvi feladatokban összehangoló legutóbbi munkákat az absztrakt érvelés területére, és összehasonlítják az emberek teljesítményét és neurális reprezentációit nyolc nyílt forráskódú LLM-ével egy absztrakt mintakiegészítési feladat megoldása során".
A teszt során az embereknek alakzatok sorozatát kell vizsgálniuk (pl. csillag, hold, bicikli, csillag, hold, kérdőjel), és a kérdőjel helyére be kell illeszteniük a mintát kiegészítő alakzatot (pl. itt a biciklit). Az LLM-eket ugyaneerre kérik, de szöveges formában. Ez egy nagyon alapvető teszt, bár a minták komplexitása növekszik.
Azt találták, hogy jelentős különbség van a képességek terén az emberek és az AI-rendszerek között – egészen addig, amíg az LLM-ek méretét nem növelik, ekkor ugyanis kezdenek egyetérteni. „Átlagosan az emberek minden LLM-et felülmúlnak, 82,47%-os összteljesítménnyel (SD = 20,38%), szemben a 40,59%-kal (SD = 33,08%). Azonban a ∼70 milliárd paraméteres modellek, nevezetesen a Qwen2.5-72B, a Deepseek-R1-Distill-Llama-70B és a Llama-3.3-70B kiemelkednek a többi közül 75,00% és 81,75% közötti pontszámaikkal (szemben az összes többi modell 40% alatti eredményével)” – írják a szerzők.
Annak feltárására, hogy az LLM-ek és az emberek belső reprezentációi összhangban vannak-e, a szerzők egy reprezentációs disszimilációs mátrixot (RDM) építettek. Az RDM alapvetően egy hasonlósági térkép arról, hogyan rendszerezi az információkat egy rendszer – az ötlet itt az, hogy lássák, az LLM-ek és az emberek hasonlóan vagy eltérően rendszerezik-e a dolgokat. Az LLM RDM-eket a modellek köztes rétegeinek aktivációiból vezetik le, az emberieket pedig a kortikális aktivitás EEG-vel történő rögzítésével a feladat végzése közben. Az eredmények azt mutatják, hogy a nagyobb LLM-ek és az emberek között van bizonyos mértékű egyezés. Bár a korrelációk nem érték el a statisztikai szignifikanciát, szisztematikusan magasabbak voltak, mint a kontrollfeltételek esetében, ami valódi, de finom összehangoltságot sugall az emberi érvelési folyamatok és az LLM-reprezentációk között.
- Összehasonlították az emberi teljesítményt és az EEG-felvételeket az LLM-aktivációkkal absztrakt érvelési feladatok során.
- A nagy modellek (70B+) 75-81%-os pontosságot értek el, megközelítve a 82%-os emberi átlagot.
- Megállapították, hogy az érvelésre optimalizált modellek (DeepSeek-R1) "emberszerűbbek" a hibamintázataikban, mint az alapmodellek.
- A DeepSeek-R1-Distill-Llama-70B 2,6-szoros növekedést mutatott az emberszerűségben az alapmodelljéhez képest, a 7%-os pontosságcsökkenés ellenére.
- Reprezentációs disszimilációs mátrixokat (RDM) használtak a belső szervezeti struktúrák összehasonlítására.
Miért fontos?
Hajlamos vagyok egyetérteni azzal a világnézettel, miszerint "azokat a dolgokat, amelyek úgy viselkednek, mint más dolgok, hasonlóan kell kezelni". Vagy másképpen fogalmazva: "ha valami úgy néz ki, mint egy kacsa, úgy beszél, mint egy kacsa, és úgy hápog, mint egy kacsa, akkor kezeld úgy, mintha kacsa lenne". Az ehhez hasonló kutatások azt mutatják, hogy az LLM-ek és az emberek egyre hasonlóbbnak tűnnek, ahogy az AI-rendszereket egyre kifinomultabbá tesszük. Ezért arra számítok, hogy a jövőben az LLM-eket és az embereket inkább hasonlónak, semmint különbözőnek fogjuk tekinteni. ---