ELOSZTOTT INFERENCIA
A PETALS lehetővé teszi az elosztott LLM-inferenciát és finomhangolást az interneten keresztül
A Yandex, a Neiro.ai, a University of Washington és a Hugging Face kutatói kifejlesztették a PETALS-t, egy olyan rendszert, amely megkönnyíti az ad-hoc kollektívák számára a számítási erőforrások megosztását a nagy nyelvi modellek futtatásához és finomhangolásához. A technika lehetővé teszi a szupercomputer-hozzáféréssel nem rendelkező kisebb csoportok számára, hogy 50 milliárdnál is több paraméterrel rendelkező modelleket futtassanak, mint például a Llama 2 (70B) és a BLOOM (176B). A PETALS a transformer blokkokat távoli szerverekre delegálja, miközben a kliens csak minimális beágyazásokat (embeddings) tárol, ami heterogén és megbízhatatlan hálózati környezetben felülmúlja a helyi RAM-alapú offloading megoldásokat.
- A kliensek a modell súlyainak kevesebb mint 3%-át tárolják (bemeneti és kimeneti beágyazások), a számításigényes feladatokat pedig távoli szerverekre bízzák.
- A rendszer a hálózati késleltetés alapján rangsorolt prioritási sort tart fenn a szerverekről az inferencia idejének optimalizálása érdekében.
- Egy beam-search-höz hasonló eljárást használ a leggyorsabb elérhető szerversorrend megtalálásához.
- Gyorsítótárazza a köztes aktiválásokat, így a kliensek helyreállíthatják az állapotot, ha egy távoli szerver meghibásodik vagy kilép a hálózatból.
- Sikeresen tesztelték valós körülmények között 14 kisebb, vegyes hardverrel (RTX 3060, 2080Ti, 3090, A4000 és A5000) felszerelt szerveren.
Miért fontos?
A legtöbb AI-irányelv központosított tanítást és kiszolgálást feltételez. A PETALS megmutatja, hogy a nagy modellek decentralizált, ad-hoc hardvergyűjteményeken keresztül is kiszolgálhatók és adaptálhatók, ami jelentősen megnehezíti a modellek feletti ellenőrzést, és nagyobb mozgásteret ad az egyéni kutatóknak. ---