A ByteDance részletezi a MegaScale rendszert 175 milliárd paraméteres modellek tanításához

AI INFRASTRUCTURE

A ByteDance részletezi a MegaScale rendszert 175 milliárd paraméteres modellek tanításához

2024. március 4. · MI Történik? · 1 perc olvasás

A ByteDance és a Pekingi Egyetem kutatói közzétették a MegaScale-t, egy nagyléptékű AI rendszerek tanítására szolgáló rendszert. A tanulmány legfigyelemreméltóbb része, hogy nemrégiben a MegaScale segítségével tanítottak be egy 175 milliárd paraméteres nyelvi modellt 12 228 darab GPU-n – ez az egyik legnagyobb GPU-n végzett tanítási folyamat, amelyről nyilvános közleményben beszámoltak. A MegaScale az NVIDIA Megatron-LM szoftverére épül, a tanítási architektúra és a modelltervezés módosításaival. A ByteDance 55,2%-os Model FLOPs Kihasználtságot (MFU) ért el, ami azt jelzi, hogy a rendszer rendkívül hatékony a műveletek kezelésében és a GPU-k aktívan tartásában a hatalmas futtatás során.

Párhuzamos transformer blokkot és csúszóablakos figyelmet (sliding window attention) használ a nagyobb skálázhatóság érdekében
LAMB optimalizálót alkalmaz a kötegméret (batch size) akár négyszeresére növeléséhez pontosságvesztés nélkül
FlashAttention-2-t és egy 3 rétegű CLOS-szerű hálózati topológiát használ
Az adatközponti hálózat Broadcom Tomahawk 4 chipeket használ 25,6 Tbps összsávszélességgel
Megerősíti, hogy a ByteDance továbbra is több ezer NVIDIA Ampere és Hopper GPU-val épít klasztereket

Miért fontos?

A nagyléptékű AI kutatás nem kizárólag amerikai kiváltság. Az exportkorlátozások ellenére az olyan kínai vállalatok, mint a ByteDance, az élenjáró amerikai cégek nagyságrendjében működnek, így az AI verseny egyszerre piaci és globális geopolitikai kérdés. ---

Eredeti forrás megtekintése (angol) →