A Google skálázási törvényeket állapított meg a több adatközpont közötti elosztott tanításhoz

AI OKTÁTÁS

A Google skálázási törvényeket állapított meg a több adatközpont közötti elosztott tanításhoz

2025. március 17. · MI Történik? · 1 perc olvasás

A Google kutatói a DiLoCo-nak (Distributed Low-Communication) nevezett elosztott tanítási típus „skálázási törvényeit” vizsgálták. Eredményeik azt mutatják, hogy jól hangolva a DiLoCo jobban skálázódik a modell méretével, mint a szabványos adaton alapuló párhuzamosítás, és akár kisebb modellméretek mellett is felülmúlhatja azt. Ez azt jelenti, hogy lehetségessé válhat egyetlen AI-rendszer betanítása több különböző adatközpontban, ugyanolyan minőséget elérve, mint egyetlen nagy létesítményben. A tanulmány a modellméret és az optimális hiperparaméter-választások függvényében tett előrejelzéseket a kiértékelési veszteségre, ami feleslegessé teheti a drága kézi hangolást.

Az előrejelzéseket 4 milliárd és 10 milliárd paraméteres modelleken tesztelték.
A DiLoCo több mint 100-szorosára csökkentette a teljes kommunikációs igényt.
Gyakorlatilag minden beállításban az elosztott módszer alacsonyabb kiértékelési veszteséget ért el, mint a szabványos Data-Parallel tanítás.
A nagyobb léptékű szimulációk (Llama3 405B és DeepSeek-V3 671B) a megnövekedett számítási hatékonyság ígéretes jeleit mutatták.
A skálázási törvények pontosnak bizonyultak a teljesítmény előrejelzésében a modellek növekedése során.

Miért fontos?

Az elosztott tanítás megdönti a jelenlegi AI-politika alapfeltevéseit, amelyek a nagy, központosított számítási klaszterek monitorozására épülnek. Ha egy modell 10 különböző, kisebb adatközpontban is betanítható, az olyan eszközök, mint a számítási kapacitás exportellenőrzése vagy a nagy létesítmények felügyelete, hatástalanná válhatnak. Ez a kutatás az elosztott tanítást a spekulatív résből a legkorszerűbb modellek kidolgozásának egyik technikai útjává emeli.

Eredeti forrás megtekintése (angol) →