A ByteDance bemutatta a MegaScale-Infert a nagyméretű MoE modellek hatékony kiszolgálására
A ByteDance és a Pekingi Egyetem kutatói részleteket tettek közzé a MegaScale-Inferről, amely egy „hatékony és költségtakarékos rendszer a nagyméretű MoE modellek kiszolgálására”. A hagyományos dense AI-modellekkel ellentétben a MoE modelleknek egy adott időpontban csak a paramétereik egy része aktív, ami lehetőséget teremt a gazdaságosabb kiszolgálásra. A MegaScale-Infer bevezeti a „ping-pong pipeline” párhuzamosítást, amely a kérések kötegeit mikro-kötegekre osztja, és oda-vissza mozgatja őket az attention és az FFN modulok között az következtetés (inference) során. Az egyes modulokhoz tartozó egyedi modell-párhuzamosítással kombinálva a MegaScale-Infer hatékonyan rejti el a kommunikációs többletköltséget és maximalizálja a GPU-kihasználtságot.
- Lehetővé teszi az egyes modulok független skálázását testreszabott modell-párhuzamosítási stratégiákkal (adat-párhuzamosítás az attention moduloknál, expert-párhuzamosítás az FFN moduloknál).
- Lehetővé teszi a heterogén GPU-kon való telepítést: az attention modulokat költséghatékony, memóriafókuszú chipekre, az FFN modulokat pedig megfizethető, számításfókuszú chipekre helyezi.
- A rendszer akár 1,90-szer magasabb GPU-nkénti áteresztőképességet ér el, mint az olyan korszerű megoldások, mint a vLLM és a TensorRT-LLM.
- A tesztelés során 132 és 317 milliárd paraméter közötti MoE modelleket használtak NVIDIA A100, H20 és L40S GPU-kat tartalmazó clustereken.
Miért fontos?
A MegaScale-Infer a „méret tünete” – ez az a fajta rendszer, amit akkor épít az ember, ha nagyméretű AI-rendszereket üzemeltet jelentős léptékben, és ezért akar mérnöki befektetéseket eszközölni a további hatékonyság érdekében. Mindez jelzi azt a hatalmas léptéket, amelyben a ByteDance működik – a H20 és L40S chipek említése pedig felveti a kérdést, vajon hány ilyen chippel rendelkezik a vállalat. ---