MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A ByteDance bemutatta a MegaScale-Infert a nagyméretű MoE modellek hatékony kiszolgálására

A ByteDance és a Pekingi Egyetem kutatói részleteket tettek közzé a MegaScale-Inferről, amely egy „hatékony és költségtakarékos rendszer a nagyméretű MoE modellek kiszolgálására”. A hagyományos dense AI-modellekkel ellentétben a MoE modelleknek egy adott időpontban csak a paramétereik egy része aktív, ami lehetőséget teremt a gazdaságosabb kiszolgálásra. A MegaScale-Infer bevezeti a „ping-pong pipeline” párhuzamosítást, amely a kérések kötegeit mikro-kötegekre osztja, és oda-vissza mozgatja őket az attention és az FFN modulok között az következtetés (inference) során. Az egyes modulokhoz tartozó egyedi modell-párhuzamosítással kombinálva a MegaScale-Infer hatékonyan rejti el a kommunikációs többletköltséget és maximalizálja a GPU-kihasználtságot.
Miért fontos?

A MegaScale-Infer a „méret tünete” – ez az a fajta rendszer, amit akkor épít az ember, ha nagyméretű AI-rendszereket üzemeltet jelentős léptékben, és ezért akar mérnöki befektetéseket eszközölni a további hatékonyság érdekében. Mindez jelzi azt a hatalmas léptéket, amelyben a ByteDance működik – a H20 és L40S chipek említése pedig felveti a kérdést, vajon hány ilyen chippel rendelkezik a vállalat. ---

Eredeti forrás megtekintése (angol) →