A DeepMind Mixture-of-Experts architektúrával skálázza a megerősítéses tanulást

AI ARCHITEKTÚRA

A DeepMind Mixture-of-Experts architektúrával skálázza a megerősítéses tanulást

2024. február 19. · MI Történik? · 2 perc olvasás

A Google DeepMind, a Mila, a Montreali Egyetem, az Oxfordi Egyetem és a McGill Egyetem kutatói rájöttek, hogyan integrálják a Mixture-of-Expert (MoE) modelleket megerősítéses tanulást (RL) végző ágensekkel. Ez lehetővé teheti, hogy az RL ágensek (például azok, amelyek videojátékokat tanulnak játszani, vagy forgalomirányítást optimalizálnak városokban) alkalmassá váljanak ugyanarra a számításigényes skálázásra, ami a nyelvi modelleket is olyan kiválóvá tette. Mit tettek: A kutatók bemutatták, hogyan lehet a Mixture-of-Experts egy változatát – a Soft MoE-kat – jól működésre bírni két szabványos RL architektúrával, a DeepMind DQN és Rainbow megközelítéseivel. A tesztek során kimutatták, hogy „a Soft MoE egyértelmű teljesítménynövekedést biztosít, és ez a nyereség a szakértők számával együtt növekszik; például a Rainbow esetében a szakértők számának 1-ről 8-ra emelése 20%-os teljesítményjavulást eredményezett.” Ez azt jelenti, hogy „az MoE-k általánosan előnyösebb szerepet játszhatnak a mély RL ágensek tanításában”, és valószínűleg megkönnyítik az RL rendszerek skálázását. „Munkánk empirikusan bizonyítja, hogy az MoE-k jótékony hatással vannak az értékalapú ágensek teljesítményére különböző tanítási rendszerekben” – írják.

Integrálták a Soft MoE-kat olyan szabványos RL rendszerekkel, mint a DQN és a Rainbow.
A szakértők számának 1-ről 8-ra növelése 20%-os teljesítményjavulást hozott a Rainbow-nál.
Empirikus bizonyítékok utalnak arra, hogy az MoE-k jótékony hatással vannak az értékalapú ágensekre.
A megközelítés célja, hogy az RL ágenseket alkalmassá tegye az LLM-eknél tapasztalt nagy számításigényű skálázásra.

Miért fontos?

Néhány évvel ezelőtt mindenki azt hitte, hogy az AGI (általános mesterséges intelligencia) az egyedi RL ágensek masszív skálázásából fog megszületni, mivel úgy gondolták, hogy a bemeneti adatok és a hosszú távú cselekvések összekapcsolása természetes módon ösztönzi az intelligenciát. Ez szűkebb területeken működött is – lásd AlphaGo, AlphaStar, az OpenAI Dota 2 rendszere, vagy az RL használata a fúziós reaktorok plazmájának stabilizálására. De általánosságban nem vált be. Aztán megérkezett a transformer-alapú nyelvi modellek következő-token predikcióján keresztüli, tömegesen skálázott öntanító tanulás. Ez elvezetett a meglehetősen általános rendszerekhez, bár ezek nem túl jók a cselekvéssorozatok végrehajtásában. A jövőben valószínűleg egyre több időt töltenek majd az LLM-forradalom és az RL korábbi eredményeinek ötvözésével, ami igen általános és hosszú életű ágenseket eredményezhet. Az ehhez hasonló tanulmányok megmutatják, hogyan skálázhatjuk fel az RL rendszereket, ami segíthet nekik igazán okos, hosszú távú viselkedések elsajátításában. ---

Eredeti forrás megtekintése (angol) →