MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A DeepMind Mixture-of-Experts architektúrával skálázza a megerősítéses tanulást

A Google DeepMind, a Mila, a Montreali Egyetem, az Oxfordi Egyetem és a McGill Egyetem kutatói rájöttek, hogyan integrálják a Mixture-of-Expert (MoE) modelleket megerősítéses tanulást (RL) végző ágensekkel. Ez lehetővé teheti, hogy az RL ágensek (például azok, amelyek videojátékokat tanulnak játszani, vagy forgalomirányítást optimalizálnak városokban) alkalmassá váljanak ugyanarra a számításigényes skálázásra, ami a nyelvi modelleket is olyan kiválóvá tette. Mit tettek: A kutatók bemutatták, hogyan lehet a Mixture-of-Experts egy változatát – a Soft MoE-kat – jól működésre bírni két szabványos RL architektúrával, a DeepMind DQN és Rainbow megközelítéseivel. A tesztek során kimutatták, hogy „a Soft MoE egyértelmű teljesítménynövekedést biztosít, és ez a nyereség a szakértők számával együtt növekszik; például a Rainbow esetében a szakértők számának 1-ről 8-ra emelése 20%-os teljesítményjavulást eredményezett.” Ez azt jelenti, hogy „az MoE-k általánosan előnyösebb szerepet játszhatnak a mély RL ágensek tanításában”, és valószínűleg megkönnyítik az RL rendszerek skálázását. „Munkánk empirikusan bizonyítja, hogy az MoE-k jótékony hatással vannak az értékalapú ágensek teljesítményére különböző tanítási rendszerekben” – írják.
Miért fontos?

Néhány évvel ezelőtt mindenki azt hitte, hogy az AGI (általános mesterséges intelligencia) az egyedi RL ágensek masszív skálázásából fog megszületni, mivel úgy gondolták, hogy a bemeneti adatok és a hosszú távú cselekvések összekapcsolása természetes módon ösztönzi az intelligenciát. Ez szűkebb területeken működött is – lásd AlphaGo, AlphaStar, az OpenAI Dota 2 rendszere, vagy az RL használata a fúziós reaktorok plazmájának stabilizálására. De általánosságban nem vált be. Aztán megérkezett a transformer-alapú nyelvi modellek következő-token predikcióján keresztüli, tömegesen skálázott öntanító tanulás. Ez elvezetett a meglehetősen általános rendszerekhez, bár ezek nem túl jók a cselekvéssorozatok végrehajtásában. A jövőben valószínűleg egyre több időt töltenek majd az LLM-forradalom és az RL korábbi eredményeinek ötvözésével, ami igen általános és hosszú életű ágenseket eredményezhet. Az ehhez hasonló tanulmányok megmutatják, hogyan skálázhatjuk fel az RL rendszereket, ami segíthet nekik igazán okos, hosszú távú viselkedések elsajátításában. ---

Eredeti forrás megtekintése (angol) →