A Google bemutatja a DiPaCo-t az AI-modellek elosztott számítási hálózatokon történő skálázására

AI OKTÁTÁS

A Google bemutatja a DiPaCo-t az AI-modellek elosztott számítási hálózatokon történő skálázására

2024. április 1. · MI Történik? · 1 perc olvasás

A Google közzétette a DIstributed PAth COmposition (DiPaCo) nevű technikát, amely neurális hálók méretének növelését teszi lehetővé földrajzilag elosztott számítási egységeken keresztül. „Megközelítésünk lehetővé teszi az oktatást gyengén kapcsolódó és heterogén egységeken keresztül, olyan kialakítással, amely biztosítja a robusztusságot a leállásokkal és megszakításokkal szemben” – írják a kutatók. Ezzel a módszerrel egy prototípus modellt tanítottak be, amely megközelíti a hagyományos módon tanított modellek teljesítményét. Ellentmondásos módon a Google útja a mai adatközpontok kapacitását meghaladó, sokkal nagyobb AI-rendszerek betanításához olyan elosztott oktatási (és végül következtetési/inference) technikák kidolgozását igényli, amelyek eredendően felülírják a központosított számítási ellenőrzésre összpontosító AI-szabályozásokat. „Hosszú távú álmunk a módszer további finomítása és egy soha véget nem érő, közösségvezérelt, moduláris tanulási rendszer létrehozása, amelyet mindenki használhat új prediktorok összeállítására meglévő modulokból, ezáltal hatékonyan fejlesztve teljesen új modelleket és képességeket egy pozitív visszacsatolási hurokban” – írja a Google.

Durva útválasztás (Coarse Routing): A DiPaCo dokumentumonkénti, nem pedig tokenenkénti útválasztást végez, lehetővé téve a paraméterek elosztását távoli egységek között anélkül, hogy feldolgozás közben modult kellene cserélni.
DiLoCo: Korábbi kutatásokat használ a modulok közös oktatásának elosztására különböző számítási egységek között, így a teljes hálózatnak soha nem kell egyetlen helyen megjelennie.
Megvalósíthatóság: Sikeresen betanítottak egy 150 millió paraméteres modellt, amely elérte egy 1,3 milliárdos modell validációs perplexitását, miközben 45%-kal kevesebb valós idejű betanítási időt igényelt.
Erőforrás-hatékonyság: A DiPaCo 256 számítási „szigetet” használt, amelyek mindegyike csak nyolcadannyi eszközzel rendelkezett, mint az alaprendszer.

Miért fontos?

A jelenlegi AI-szabályozás azon alapul, hogy a modellek egységes egészként kezelhetők az ellenőrizhető adatközpontokban. Az olyan hatékony elosztott oktatás, mint a DiPaCo, lehetővé teszi a modellek betanítását több kisebb számítási egységen keresztül, megkerülve a központosított fürtöket célzó szabályozásokat. ---

Eredeti forrás megtekintése (angol) →