AI OKTÁTÁS
A Google skálázási törvényeket állapított meg a több adatközpont közötti elosztott tanításhoz
A Google kutatói a DiLoCo-nak (Distributed Low-Communication) nevezett elosztott tanítási típus „skálázási törvényeit” vizsgálták. Eredményeik azt mutatják, hogy jól hangolva a DiLoCo jobban skálázódik a modell méretével, mint a szabványos adaton alapuló párhuzamosítás, és akár kisebb modellméretek mellett is felülmúlhatja azt. Ez azt jelenti, hogy lehetségessé válhat egyetlen AI-rendszer betanítása több különböző adatközpontban, ugyanolyan minőséget elérve, mint egyetlen nagy létesítményben. A tanulmány a modellméret és az optimális hiperparaméter-választások függvényében tett előrejelzéseket a kiértékelési veszteségre, ami feleslegessé teheti a drága kézi hangolást.
- Az előrejelzéseket 4 milliárd és 10 milliárd paraméteres modelleken tesztelték.
- A DiLoCo több mint 100-szorosára csökkentette a teljes kommunikációs igényt.
- Gyakorlatilag minden beállításban az elosztott módszer alacsonyabb kiértékelési veszteséget ért el, mint a szabványos Data-Parallel tanítás.
- A nagyobb léptékű szimulációk (Llama3 405B és DeepSeek-V3 671B) a megnövekedett számítási hatékonyság ígéretes jeleit mutatták.
- A skálázási törvények pontosnak bizonyultak a teljesítmény előrejelzésében a modellek növekedése során.
Miért fontos?
Az elosztott tanítás megdönti a jelenlegi AI-politika alapfeltevéseit, amelyek a nagy, központosított számítási klaszterek monitorozására épülnek. Ha egy modell 10 különböző, kisebb adatközpontban is betanítható, az olyan eszközök, mint a számítási kapacitás exportellenőrzése vagy a nagy létesítmények felügyelete, hatástalanná válhatnak. Ez a kutatás az elosztott tanítást a spekulatív résből a legkorszerűbb modellek kidolgozásának egyik technikai útjává emeli.