A DeepMind osztott tanítási technikája kihívást jelent a központosított AI-szabályozási módszerek számára

2023. november 20. · MI Történik? · 1 perc olvasás

A jelenlegi AI-szabályozás jelentős része azon az elképzelésen alapul, hogy az AI-fejlesztés élvonala ellenőrizhető a sűrű hálózatba kötött, nagy mennyiségű számítógép felügyeletével. Az alapvető feltételezés az, hogy a legnagyobb számítási kapacitások (compute) megfigyelésével nyomon követhető, hol tanítják a legnagyobb AI rendszereket. A DeepMind új kutatása megmutatja, hogyan lehet rendszereket tanítani osztott klasztereken, elhanyagolható teljesítménykülönbség mellett.

Technikájuk, a DiLoCo (Distributed Low-Communication) tanítás úgy működik, hogy a teljes AI tanítási folyamatot egy osztott folyamatra bontja, ahol az egyes számítási klaszterek egy belső kört optimalizálnak (AdamW segítségével), miközben időnként visszaküldik adataikat egy Nesterov momentummal optimalizált külső körbe. A megközelítés feltételezi, hogy az egyes klaszterek számítási kapacitása egyenlő, bár az eszközök eltérőek lehetnek (például az egyik klaszter lehet TPU-kból, a másik pedig GPU-kból álló).

„A C4 adatkészleten végzett tapasztalati ellenőrzésünk bizonyítja, hogy a DiLoCo akár jobb teljesítményt is elérhet (perplexitásban mérve), mint egy teljesen szinkron modell, miközben 500-szor kevesebbet kommunikál” – írják a szerzők. A kutatók 60, 150 és 400 millió paraméteres modelleket tanítottak Transformer architektúrát használva. A szemfüles olvasók megjegyezhetik, hogy a tipikus produkciós modellek paraméterszáma a tíz- és százMILLIÁRDOS nagyságrendbe esik, így amíg a DiLoCo nem bizonyít nagy léptékben is, van ok a szkepticizmusra.

A DiLoCo tanítás lehetővé teszi az AI képzését földrajzilag elkülönült, eltérő számítási klasztereken.
500-szorosára csökkenti a kommunikációs igényt a szabványos, teljesen szinkron modellekhez képest.
Kétkörös optimalizálási stratégiát alkalmaz (AdamW a belső körökhöz és Nesterov momentum a külső körökhöz).
Támogatja a heterogén hardverek használatát a különböző osztott klaszterekben.
Jelenleg 400 millió paraméteres modellekig tesztelték, amelyek a szinkron modelleknél is jobb teljesítményt mutattak.

Miért fontos?

Minél inkább lehetővé tesszük az osztott számítástechnikát, annál kevésbé válik kormányozhatóvá az AI szektor. Az ehhez hasonló kutatások közvetlenül hozzájárulnak a technológia politikai mozgásteréhez azáltal, hogy potenciálisan lehetővé teszik a fejlesztők számára a központosított számítási kapacitás figyelésén alapuló szabályozói felügyelet megkerülését. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Mondo Robotics bemutatta Benit, az autonóm kamerarobotot tartalomgyártók számára

6 órája

A Booster Robotics humanoidja falat is átütő rúgással debütált a futballbemutatón

8 órája

Az Aceii A1 mobil teniszrobot dinamikus AI-edzést kínál

9 órája