A DeepMind Streaming DiLoCo 100-szoros sávszélesség-hatékonyságot ér el az elosztott betanításban

AI KUTATÁS

A DeepMind Streaming DiLoCo 100-szoros sávszélesség-hatékonyságot ér el az elosztott betanításban

2025. február 3. · MI Történik? · 1 perc olvasás

Az elmúlt néhány évben számos kutató fordult az elosztott betanítás felé – ez az az elképzelés, hogy ahelyett, hogy egyetlen hatalmas adatközpontban tanítanának hatékony AI-rendszereket, a betanítási folyamatot több, egymástól távol lévő adatközpont között osztják fel. Ez egy fontos gondolat, nagy jelentőséggel: sok AI-politikai irányelv feltételezi, hogy az AI-fejlesztés ellenőrzésének kulcsa a nagy léptékű adatközpontok vagy a felhőkörnyezetekben lévő hatalmas számítási kapacitás felügyelete. Az elosztott betanítási megközelítések megdöntik ezt a feltételezést, lehetővé téve, hogy hatékony rendszereket egymással együttműködő számítógépek laza szövetségéből építsenek fel. A DeepMind új kutatása továbbviszi ezt az elképzelést, a vállalat korábban publikált „DiLoCo” megközelítésére építve. Az új kutatás – a Streaming DiLoCo – lehetővé teszi a milliárdos paraméterszámú modellek elosztott betanítását a korábbival megegyező minőségben, de két nagyságrenddel csökkentve a szükséges sávszélességet. A tesztek során a kutatók kimutatták, hogy az új technika „egyértelműen felülmúlja az eredeti DiLoCo-t”. A DiLoCo-ra érdemes odafigyelni – a Prime Intellect „INTELLECT-1” 10 milliárd paraméteres modelljét is elosztott módon tanították az OpenDiLoCo-val, amely a DeepMind módszerének nyílt forráskódú változata.

Csak a paraméterek részhalmazait szinkronizálja egymás után, ahelyett, hogy egyszerre tenné, így csökkentve a csúcssávszélesség-igényt.
Lehetővé teszi a dolgozó egységek számára a tanítás folytatását szinkronizálás közben, kiküszöbölve az információmegosztás miatti várakozási időt.
A dolgozók által cserélt adatokat 4-bites (FP4) precízióra kvantálja, miközben a gradiensek kiszámításához megtartja a teljes precíziót (FP32).
Az 1B, 10B és 100B léptékű szimulációk azt mutatják, hogy az előnyök a modellek méretével együtt nőnek.
A valós tesztek Chinchilla-stílusú modelleken (35M-től 4B paraméterig) a standard tanítással egyenértékű minőséget értek el.

Miért fontos?

Elképzelek egy jövőt, ahol ezer különböző elme növekszik, mindegyiknek a gyökerei több ezer egymástól távol lévő számítógépben vannak, amelyek titokban cserélnek információt az AI-szabályozási rendszerek látóköre alatt. Úgy tűnik, ez a jövő magától bekövetkezik majd, annak ellenére, hogy számos kényelmetlenséget okoz a technológia ellenőrzésére törekvő politikai megközelítések számára.

Eredeti forrás megtekintése (angol) →