AI INFRASTRUCTURE
A ByteDance részletezi a MegaScale rendszert 175 milliárd paraméteres modellek tanításához
A ByteDance és a Pekingi Egyetem kutatói közzétették a MegaScale-t, egy nagyléptékű AI rendszerek tanítására szolgáló rendszert. A tanulmány legfigyelemreméltóbb része, hogy nemrégiben a MegaScale segítségével tanítottak be egy 175 milliárd paraméteres nyelvi modellt 12 228 darab GPU-n – ez az egyik legnagyobb GPU-n végzett tanítási folyamat, amelyről nyilvános közleményben beszámoltak.
A MegaScale az NVIDIA Megatron-LM szoftverére épül, a tanítási architektúra és a modelltervezés módosításaival. A ByteDance 55,2%-os Model FLOPs Kihasználtságot (MFU) ért el, ami azt jelzi, hogy a rendszer rendkívül hatékony a műveletek kezelésében és a GPU-k aktívan tartásában a hatalmas futtatás során.
- Párhuzamos transformer blokkot és csúszóablakos figyelmet (sliding window attention) használ a nagyobb skálázhatóság érdekében
- LAMB optimalizálót alkalmaz a kötegméret (batch size) akár négyszeresére növeléséhez pontosságvesztés nélkül
- FlashAttention-2-t és egy 3 rétegű CLOS-szerű hálózati topológiát használ
- Az adatközponti hálózat Broadcom Tomahawk 4 chipeket használ 25,6 Tbps összsávszélességgel
- Megerősíti, hogy a ByteDance továbbra is több ezer NVIDIA Ampere és Hopper GPU-val épít klasztereket
Miért fontos?
A nagyléptékű AI kutatás nem kizárólag amerikai kiváltság. Az exportkorlátozások ellenére az olyan kínai vállalatok, mint a ByteDance, az élenjáró amerikai cégek nagyságrendjében működnek, így az AI verseny egyszerre piaci és globális geopolitikai kérdés. ---