MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Facebook több mint 100 000 GPU-n tréningez AI-t egyedi szoftverrel

A Facebook részleteket tett közzé arról a szoftverről, amelyet azért épített, hogy több mint 100 ezer GPU-t futtasson együtt nagyméretű AI rendszerek tréningezéséhez. Az NCCLX szoftver azért érdekes, mert egy technológiai szignatúra a mai technológiai óriások kormányt felülmúló kifinomultságáról, hasonlóan egy cápauszonyhoz, amelyet egyébként nyugodt vizeken pillantunk meg. „A keretrendszer komplex munkaterhelések támogatására készült 100 000 GPU-t meghaladó klasztereken” – írja a Facebook. „A tréning során hatalmas GPU klaszterek szinkronban működnek az alapmodell tréningezéséhez, gyakran elérve a 100 000+ GPU skálát a legmodernebb munkaterhelésekhez.” Az NCCLX az NVIDIA Collective Communications Library (NCCL) erősen testreszabott változata. Az NCCL kutatási cikk nagy része arról szól, hogy a Facebooknak mit kellett tennie ahhoz, hogy a szoftver a Facebook méretén működjön, aminek nagy része egyedi hálózati szoftverek fejlesztését foglalja magában. Az NCCLX infrastrukturális építési módjának testreszabásának köszönhetően a Facebook bizonyos hatékonyságot tudott elérni: „A tréning során az NCCLX akár 12%-kal csökkentette a Llama 4 modellek minden stabil tréning lépésének késleltetését különböző skálákon.” (Sajnos a Llama 4 modellek nem voltak túl jók, de ez nem releváns ennél a cikkél.)
Miért fontos?

Miért fontos ez – a magánszektor hatalmas méretének demonstrálása: Az NCCLX-hez hasonló szoftverek rávilágítanak arra, hogy a magánszektor mennyivel előrébb jár a kormánynál, amikor nagyméretű AI tréning és inference futtatására szolgáló szoftverekről van szó. Összehasonlításképpen, az Egyesült Államok kormányának tulajdonítható eddigi legnagyobb AI tréning futtatás néhány ezer GPU-n történt ([Import AI #358](https://jack-clark.net/2024/01/29/import-ai-358-the-us-governments-biggest-ai-training-run-hacking-llms-by-hacking-gpus-chickens-versus-transformers/)), és az USA legnagyobb szuperszámítógépe, az [El Capitan](https://asc.llnl.gov/exascale/el-capitan) összesen körülbelül 43 000 GPU-val rendelkezik. ---

Eredeti forrás megtekintése (angol) →