A DeepMind Mixture-of-Experts architektúrával skálázza a megerősítéses tanulást
- Integrálták a Soft MoE-kat olyan szabványos RL rendszerekkel, mint a DQN és a Rainbow.
- A szakértők számának 1-ről 8-ra növelése 20%-os teljesítményjavulást hozott a Rainbow-nál.
- Empirikus bizonyítékok utalnak arra, hogy az MoE-k jótékony hatással vannak az értékalapú ágensekre.
- A megközelítés célja, hogy az RL ágenseket alkalmassá tegye az LLM-eknél tapasztalt nagy számításigényű skálázásra.
Néhány évvel ezelőtt mindenki azt hitte, hogy az AGI (általános mesterséges intelligencia) az egyedi RL ágensek masszív skálázásából fog megszületni, mivel úgy gondolták, hogy a bemeneti adatok és a hosszú távú cselekvések összekapcsolása természetes módon ösztönzi az intelligenciát. Ez szűkebb területeken működött is – lásd AlphaGo, AlphaStar, az OpenAI Dota 2 rendszere, vagy az RL használata a fúziós reaktorok plazmájának stabilizálására. De általánosságban nem vált be. Aztán megérkezett a transformer-alapú nyelvi modellek következő-token predikcióján keresztüli, tömegesen skálázott öntanító tanulás. Ez elvezetett a meglehetősen általános rendszerekhez, bár ezek nem túl jók a cselekvéssorozatok végrehajtásában. A jövőben valószínűleg egyre több időt töltenek majd az LLM-forradalom és az RL korábbi eredményeinek ötvözésével, ami igen általános és hosszú életű ágenseket eredményezhet. Az ehhez hasonló tanulmányok megmutatják, hogyan skálázhatjuk fel az RL rendszereket, ami segíthet nekik igazán okos, hosszú távú viselkedések elsajátításában. ---