AI HARDWARE
Az Intel optimalizált inferencia-stacket fejlesztett LLM-ekhez adatközponti GPU-kon
Az Intel kutatói olyan szoftvert készítettek, amely optimalizálja a nagy nyelvi modellek (LLM) inferenciáját az Intel GPU-kon. Konkrétan egy olyan LLM inferencia-stacket hoztak létre, amely támogatja többek között a GPT-J, LLaMa, LLaMa2, OPT és Bloom modelleket. A legfontosabb szempont itt az, hogy az Intel maga végzi ezt a munkát – emlékezzünk vissza, hogyan kezdett el az Intel több mint 15 évvel ezelőtt a CUDA-hoz hasonló megoldásokat építeni a tudományos számítások megkönnyítésére, és azóta is folyamatosan optimalizálja GPU-számítási és inferencia-stackjét. Most az Intel ugyanezt kezdi el saját GPU-ival.
"A késleltetés csökkentése érdekében egyszerűsítjük az LLM dekóder rétegstruktúráját, hogy mérsékeljük az adatmozgatási költségeket. Emellett egy mély fúziós szabályrendszert (deep fusion policy) terveztünk, hogy a lehető legnagyobb mértékben összevonjuk a GeMM és az elemenkénti (Element-wise) műveleteket. Néhány népszerű, fent említett LLM esetében, 6 milliárd és 176 milliárd közötti paramétermérettel, inferencia megoldásunk akár hétszer alacsonyabb token-késleltetést ér el a standard HuggingFace implementációhoz képest" – írja az Intel. "Az LLM inferencia megoldásunkat Intel® GPU-kon implementáltuk, a kísérleteket pedig egy 4 × Intel® Data Center Max 1550 GPU kártyából álló fürtön végeztük el, kártyánként 2 Tile-lal, Tile-onként 64 Xe-maggal és 512 EU-val. Az eszközmemória Tile-onként 64 GB, körülbelül 1000 GB/s hatékony sávszélességgel. Ezek a GPU-k egy Ubuntu 22.04.3 rendszert futtató, 2x Intel® Xeon® 8480+ processzoros gépen kaptak helyet."
Az Intel nem végez alapos munkát annak bemutatásában, hogy mennyire jó a megközelítése – úgy tűnik, a saját megoldását a HuggingFace-en elérhető, meglehetősen optimalizálatlan AI-implementációkkal veti össze. Ez nem egy korrekt benchmark! Az Intelnek egy hasonlóan optimalizált nyelvi modellel kellene összehasonlítania a megoldását, amely NVIDIA vagy esetleg AMD GPU-kon fut. Ennek hiányában gyakorlatilag semmilyen jelzésünk nincs arról, hogy ez valójában mennyire versenyképes.
- Optimalizált inferencia olyan modellekhez, mint a GPT-J, LLaMa 1/2, OPT és Bloom.
- Akár hétszer alacsonyabb token-késleltetést értek el a standard HuggingFace implementációkhoz képest.
- Egyszerűsített LLM dekóder rétegszerkezetek és mély fúziós eljárások a GeMM műveletekhez.
- Intel Data Center Max 1550 GPU kártyákon tesztelve (Tile-onként 64 Xe-mag).
- A benchmarkokból jelenleg hiányzik az összehasonlítás az optimalizált NVIDIA vagy AMD stackekkel.
Miért fontos?
Az ehhez hasonló publikációk leginkább azt jelzik, hogy az Intel elkezdett szakembereket alkalmazni a modern AI-rendszerek produkciós szintű inferenciájának optimalizálására az Intel által tervezett GPU-kon. Ez szükséges, de nem elégséges előfeltétele annak, hogy az Intel valóban hasznos GPU-kkal rendelkezzen. Érdemes nyomon követni, de egyelőre semmi látványos áttörés nem történt. ---