MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A DeepMind osztott tanítási technikája kihívást jelent a központosított AI-szabályozási módszerek számára

A jelenlegi AI-szabályozás jelentős része azon az elképzelésen alapul, hogy az AI-fejlesztés élvonala ellenőrizhető a sűrű hálózatba kötött, nagy mennyiségű számítógép felügyeletével. Az alapvető feltételezés az, hogy a legnagyobb számítási kapacitások (compute) megfigyelésével nyomon követhető, hol tanítják a legnagyobb AI rendszereket. A DeepMind új kutatása megmutatja, hogyan lehet rendszereket tanítani osztott klasztereken, elhanyagolható teljesítménykülönbség mellett. Technikájuk, a DiLoCo (Distributed Low-Communication) tanítás úgy működik, hogy a teljes AI tanítási folyamatot egy osztott folyamatra bontja, ahol az egyes számítási klaszterek egy belső kört optimalizálnak (AdamW segítségével), miközben időnként visszaküldik adataikat egy Nesterov momentummal optimalizált külső körbe. A megközelítés feltételezi, hogy az egyes klaszterek számítási kapacitása egyenlő, bár az eszközök eltérőek lehetnek (például az egyik klaszter lehet TPU-kból, a másik pedig GPU-kból álló). „A C4 adatkészleten végzett tapasztalati ellenőrzésünk bizonyítja, hogy a DiLoCo akár jobb teljesítményt is elérhet (perplexitásban mérve), mint egy teljesen szinkron modell, miközben 500-szor kevesebbet kommunikál” – írják a szerzők. A kutatók 60, 150 és 400 millió paraméteres modelleket tanítottak Transformer architektúrát használva. A szemfüles olvasók megjegyezhetik, hogy a tipikus produkciós modellek paraméterszáma a tíz- és százMILLIÁRDOS nagyságrendbe esik, így amíg a DiLoCo nem bizonyít nagy léptékben is, van ok a szkepticizmusra.
Miért fontos?

Minél inkább lehetővé tesszük az osztott számítástechnikát, annál kevésbé válik kormányozhatóvá az AI szektor. Az ehhez hasonló kutatások közvetlenül hozzájárulnak a technológia politikai mozgásteréhez azáltal, hogy potenciálisan lehetővé teszik a fejlesztők számára a központosított számítási kapacitás figyelésén alapuló szabályozói felügyelet megkerülését. ---

Eredeti forrás megtekintése (angol) →