AI MODELLEK
A Pathway bemutatta az agy ihlette Baby Dragon Hatchling architektúrát a Transzformerek kiváltására
Zuzanna Stamirowska, a Pathway vezérigazgatója kutatást tett közzé az általa első „poszt-transzformer” frontier modellnek nevezett Baby Dragon Hatchlingről (BDH). Stamirowska érvelése szerint a jelenlegi transzformer architektúrák – amelyek a ChatGPT-t és a Claude-ot is hajtják – alapvetően korlátoltak, mert hiányzik belőlük az időérzék és a kezdeti tanítási fázis utáni tanulás képessége. A jelenlegi LLM-eket úgy írja le, mintha az Idétlen időkig (Groundhog Day) hurokban ragadtak volna: emlékek és a folytonosság érzése nélkül ébrednek fel.
A BDH-t úgy tervezték, hogy biológiai agyként működjön: neuronjai valós időben kapcsolódnak, erősödnek és alkalmazkodnak. Ez az agy ihlette megközelítés lehetővé teszi a megélt memóriát és a folyamatos tanulást, gyakorlatilag újragondolva az AI-fejlesztés irányát. Az architektúrát Lukasz Kaiser, az eredeti transzformer architektúra egyik társfeltalálója is támogatja.
- Az AI jelenleg nem rendelkezik időfogalommal, ami gátat szab az intelligenciának és a folytonosságnak.
- A kutatócsoport megfigyelte, hogy a BDH modell tanítása során spontán neurális struktúrák jöttek létre.
- A memória a BDH-ban akkor jön létre, amikor a neuronok közötti kapcsolatok megerősödnek az információ által kiváltott ingerlés hatására.
- A modell alapvetően értelmezhető; úgy írták le, mintha „térfigyelő kamera lenne az agyban”, szemben a transzformerek fekete doboz jellegével.
- A meglepetés memóriajelként szolgál annak eldöntésére, hogy melyik új információt érdemes megtanulni, ami gyorsabb alkalmazkodást tesz lehetővé.
- A BDH a gyors tanulásra és a kevesebb adattal történő generalizációra összpontosít a paraméterszám egyszerű növelése helyett.
- A moduláris intelligencia lehetővé teszi két külön tanított modell egyetlen rendszerré történő „összeragasztását”.
- Az átlátható tanulási rendszerek lehetővé teszik a hibás frissítések elkülönítését és visszavonását a teljes modell újratanítása nélkül.
Miért fontos?
A BDH három olyan képességet kínál, amelyre a transzformerek alapvetően nem képesek: folyamatos tanulás, valódi megélt memória és beépített értelmezhetőség, ami a poszt-transzformer korszak kezdetét jelezheti.