A DiLoCoX lehetővé teszi a 100 milliárd paraméteres modellek tanítását alacsony sávszélességű, decentralizált klasztereken

AI TRAINING

A DiLoCoX lehetővé teszi a 100 milliárd paraméteres modellek tanítását alacsony sávszélességű, decentralizált klasztereken

2025. június 30. · MI Történik? · 2 perc olvasás

A China Mobile kutatói és a Zero Gravity Labs startup kifejlesztették a DiLoCoX-ot, egy elosztott AI tanítási technikát, amellyel csökkentették a 100 milliárd feletti paraméterszámú modellek elosztott módon történő tanításának kockázatát. Ez azért jelentős, mert eddig az elosztott tanítás határa ~10-30 milliárd paraméter körül volt, miközben a legtöbb ipari léptékű AI modell a sűrű (dense) modellek esetében 100 milliárd paramétertől kezdődik, az MoE modellek esetében pedig egészen a billió paraméterig terjed. Az elosztott tanítás az egyik legjelentősebb „politikai technológia” az AI kutatáson belül – minél jobbá válik az elosztott tanítás, annál kevésbé valószínű, hogy a csúcskategóriás AI-t néhány, hatalmas adatközpontokat üzemeltető entitás fogja meghatározni, és annál valószínűbb, hogy olyan cégek és szervezetek szövetségei, amelyek gyenge hálózati kapcsolatokon keresztül osztják meg a számítási kapacitást a nagy modellek közös tanításához. Teljesítmény és tesztek: Megközelítésüket két modell részleges tanításával tesztelték – egy kis léptékű OPT-1.3B architektúrájú modellel és egy Qwen1.5-107B modellel. Mindkét modellnél decentralizált, lassú hálózati környezetet szimuláltak Linux forgalomirányítás használatával, hogy „a munkatársak közötti kommunikációs sávszélességet 1 Gbps-ra korlátozzák az adat-párhuzamosság érdekében”. Az OPT-1.3B esetében a következő veszteségértékeket (loss) kapták 4000 lépés után: AllReduce 4,06, DiLoCoX 4,27, OpenDiLoCo 5,37, CocktailSGD 5,79. A Qwen1.5-107B esetében 20 csomóponton tanították, amelyek mindegyike 8 darab A800 GPU-t tartalmazott. A veszteségértékek: AllReduce 3,90, DiLoCoX 4,20, CocktailSGD 5,23. Fontos megjegyzés: Nem hozták nyilvánosságra, hogy hány tokennyi adaton végezték a tanítást, és nem tettek közzé részletes értékeléseket sem, így ezek a modellek valószínűleg jelentősen alultanítottak, és nem tudjuk, mennyire teljesítenek jól az alapvető veszteségmérésen túl. Ezért szigorúan véve nem tanítottak ki egy teljes 100 milliárd feletti paraméteres modellt ezzel a technikával, inkább jelentősen csökkentették az ilyen léptékű tanítás kockázatát (ami továbbra is fontos).

Bevezette a modell-párhuzamosságot a 100 milliárd paramétert meghaladó modellek VRAM-korlátainak kezelésére.
Átfedte a pszeudo-gradiensek szinkronizálását a helyi tanítással az erőforrások kihasználatlanságának elkerülése érdekében.
Hatékony gradiens-tömörítési algoritmust tervezett, egyensúlyban tartva a helyi tanítási lépések számával.
357-szeres gyorsulást ért el az elosztott tanításban a hagyományos AllReduce módszerhez képest.
Fenntartotta a konvergenciát decentralizált klasztereken akár 1 Gbps alacsony hálózati sávszélesség mellett is.

Miért fontos?

Gyanítom, hogy a központosított tanítás mindig jobb lesz, mint a decentralizált, mert jellegénél fogva kisebb lesz a kommunikációs többletköltsége. De az ilyen tanulmányok lényegesen csökkentik a szakadékot a decentralizált és a központosított módszerek között, mind a technikák hatékonysági kompromisszumai, mind a működési lépték tekintetében. Ha a szakadék tovább szűkül, szerintem jelentős változások várhatóak a nagy léptékű, ipari minőségű AI rendszerek tanítására képes szereplők megoszlásában.

Eredeti forrás megtekintése (angol) →