AI HARDVER
Szuper-számítógépes tesztek szoftveres hatékonyságvesztést mutatnak az AMD AI-betanítási teljesítményében
A Maryland-i Egyetem, a Max Planck Intézet és az UC Berkeley kutatói kifejlesztették az AxoNN-t, egy szoftvert nagy léptékű AI-betanítások szuperszámítógépeken való futtatásához. Három különböző amerikai szuperszámítógépen végzett tesztjeik jelentős teljesítménybeli különbségeket mutatnak az NVIDIA és az AMD GPU-k között, rávilágítva arra, hogy az AMD szoftvercsomagja (software stack) még nem rendelkezik az NVIDIA ökoszisztémájában tapasztalható optimalizáltsággal és stabilitással.
- A teszteket az Alps (NVIDIA H100), a Frontier (AMD MI250X) és a Perlmutter (NVIDIA A100) rendszereken végezték el
- Az AMD rocBLAS-a kevésbé optimalizáltnak bizonyult az NVIDIA CuBLAS-ánál
- A Megatron-LM keretrendszer instabilitást mutatott a Frontier-en, ami miatt át kellett váltani a LitGPT-re
- Az AMD chipek nagyobb teljesítményingadozást mutattak az NVIDIA-hoz képest
- Az AMD skálázási hatékonysága 53,5%-ra esett vissza 32 768 GCD elérésekor
Miért fontos?
Bár az amerikai kormány számára előnyös a változatos hardverpark használata, az AMD-nek még hosszú utat kell megtennie az NVIDIA monopóliumának megtöréséig. A szoftvercsomag kiforrottá tétele sürgető feladat ahhoz, hogy az AMD chipek valódi versenytársaivá váljanak a nagy léptékű AI-betanításnak. ---