A Google Decoupled DiLoCo megoldása rugalmas elosztott tanítást tesz lehetővé globális adatközpontok között
A Google DeepMind új tanulmánya bemutatja a Decoupled DiLoCo-t, egy technikát, amely rávilágít arra, miként teheti lehetővé az elosztott tanítás a nagy léptékű modelltanítást különböző típusú számítógépek összekapcsolásával globális adatközpontokban. Ez a módszer aszinkron tanítást tesz lehetővé különálló „tanulóegységek” (learner units) között, biztosítva, hogy az egyik földrajzi területen bekövetkező chiphiba ne szakítsa meg a többi egység haladását. A kutatók sikeresen betanítottak egy 12 milliárd paraméteres modellt négy különálló amerikai régión keresztül, szabványos internetkapcsolatot (2-5 Gbps) használva, ahelyett, hogy egyedi hálózati infrastruktúrára lett volna szükség a létesítmények között. A keretrendszer a monolitikus klasztereket független, aszinkron tanulókra bontja szét.
- Lehetővé teszi, hogy a tanulók eltérő sebességgel fussanak, és hiba esetén ne állítsák le a teljes tanítási folyamatot.
- Szöveges és vizuális benchmarkokon 9 milliárd paraméterig megegyezik az adatpárhuzamos (data-parallel) teljesítménnyel.
- Erős szimulált hibák mellett is 88%-os hatékony áteresztőképességet (goodput) tart fenn, szemben az elasztikus adatpárhuzamos módszerek 58%-ával.
- Lehetővé teszi olyan nagy modellek tanítását, mint a Gemma 4, a meglévő internetes kapcsolat használatával az adatközpontok között.
Az ehhez hasonló technikák fogják alakítani a számítási kapacitás alacsony és magas szintjét egyaránt. A magas szinten ez felhatalmazza a meglévő „számítási szuperhatalmakat”, mint a Google, hogy végül az összes adatközpontjukban lévő összes számítógépüket egyetlen, világméretű számítógéppé alakítsák a lehető legnagyobb tanítási folyamatok elvégzéséhez. ---