A Nous Research bemutatja a DisTrO-t a lakossági interneten keresztüli elosztott tanításhoz
A Nous Research AI startup közzétett egy előzetes tanulmányt a Distributed Training Over-the-Internet (DisTrO) technológiáról, amely csökkenti a GPU-k közötti kommunikációs igényt a tanítási folyamatok során amortizáció használata nélkül. Ez lehetővé teszi a nagy neurális hálózatok alacsony késleltetésű, hatékony előtanítását (pre-training) lakossági szintű internetkapcsolaton és heterogén hálózati hardvereken keresztül. A DisTrO célja, hogy javítsa a meglévő elosztott tanítási módszereket, mint amilyen a DeepMind DiLoCo eljárása.
- A technika lehetővé tette egy 1,2 milliárd paraméteres LLM betanítását 105 milliárd tokenen, amivel a hagyományos, sűrű (dense) tanítással egyenértékű pontszámokat ért el.
- A DisTrO-AdamW a sávszélesség-igény 857-szeres csökkenését érte el a hagyományos AdamW+All-Reduce módszerhez képest.
- Az előzetes tesztek azt mutatják, hogy a sávszélesség-csökkentés elérheti az 1000-szerest vagy akár a 3000-szerest is az 1,2 milliárdos LLM-ek esetében.
- A rendszer lehetővé teszi a tanítást lakossági interneten és nem speciális hálózati hardvereken.
Miért fontos?
A központosított számítási kapacitás korlátainak lebontásával és a GPU-k közötti kommunikációs igények csökkentésével a DisTrO lehetőséget nyithat a globális AI-projektekben való széles körű részvételre és együttműködésre, eltávolodva a hatalmas, központosított adatközpontok szükségességétől.