A Nous Research bemutatja a DisTrO-t a lakossági interneten keresztüli elosztott tanításhoz

2024. szeptember 2. · MI Történik? · 1 perc olvasás

A Nous Research AI startup közzétett egy előzetes tanulmányt a Distributed Training Over-the-Internet (DisTrO) technológiáról, amely csökkenti a GPU-k közötti kommunikációs igényt a tanítási folyamatok során amortizáció használata nélkül. Ez lehetővé teszi a nagy neurális hálózatok alacsony késleltetésű, hatékony előtanítását (pre-training) lakossági szintű internetkapcsolaton és heterogén hálózati hardvereken keresztül. A DisTrO célja, hogy javítsa a meglévő elosztott tanítási módszereket, mint amilyen a DeepMind DiLoCo eljárása.

A technika lehetővé tette egy 1,2 milliárd paraméteres LLM betanítását 105 milliárd tokenen, amivel a hagyományos, sűrű (dense) tanítással egyenértékű pontszámokat ért el.
A DisTrO-AdamW a sávszélesség-igény 857-szeres csökkenését érte el a hagyományos AdamW+All-Reduce módszerhez képest.
Az előzetes tesztek azt mutatják, hogy a sávszélesség-csökkentés elérheti az 1000-szerest vagy akár a 3000-szerest is az 1,2 milliárdos LLM-ek esetében.
A rendszer lehetővé teszi a tanítást lakossági interneten és nem speciális hálózati hardvereken.

Miért fontos?

A központosított számítási kapacitás korlátainak lebontásával és a GPU-k közötti kommunikációs igények csökkentésével a DisTrO lehetőséget nyithat a globális AI-projektekben való széles körű részvételre és együttműködésre, eltávolodva a hatalmas, központosított adatközpontok szükségességétől.

Eredeti forrás megtekintése (angol) →