Kutatók kifejlesztették a „GFormer”-t a Transformer-tanítás optimalizálására Intel Gaudi chipeken
A kutatók létrehozták a „GFormer”-t, a Transformer architektúra egy változatát, amelyet kifejezetten az Intel Gaudi chipjeihez terveztek az architektúrabeli korlátok leküzdésére. A GPU-kkal ellentétben a Gaudi chipek heterogén felépítést használnak Matrix Multiplication Engine-ekkel (MME) és Tensor Processing Core-okkal (TPC), ami erőforrás-pazarláshoz vezethet a szabványos sparse attention mechanizmusok futtatásakor. Bár a kutatók 1,2-szeres és 1,5-szeres gyorsulást értek el, az eredményeket régebbi Gaudi 1 hardvereken mérték NVIDIA V100 GPU-kkal szemben, ami kérdéseket vet fel a modern H100 rendszerekkel szembeni teljesítményt illetően.
- A GFormer ablakozott local-context self-attention kerneleket vezet be a TPC áteresztőképességének maximalizálása érdekében.
- A rendszer egy külső szorzatú (outer product) TPC kernelt használ a munkaterhelés kiegyensúlyozására az MME és TPC egységek között.
- Tartalmaz egy optimális munkaterhelés-particionáló algoritmust az erőforrás-kihasználtság növelésére.
- 1,5-szeres gyorsulást értek el a hagyományos transzformerekhez képest GPT-stílusú modelleken, a V100 GPU-kkal összehasonlítva.
- A mérésekhez 2019-es korszakból származó Gaudi 1 chipeket használtak, ami megnehezíti a közvetlen összehasonlítást a modern hardverekkel.
Miért fontos?
Hány olyan tanulmányt olvasott már, amelyben Gaudi chipeket használnak AI tanításra? Én nehezen tudok felidézni akár egyet is. Ez, valamint a tanulmány megállapításai (miszerint a GPU-khoz képest teljesítménynövekedést lehet elérni, ha furcsa, Dr. Frankenstein-stílusú módosításokat hajtunk végre a transzformer architektúrán) azt sugallják, hogy az Intel továbbra is küzdeni fog az NVIDIA-val folytatott AI-versenyben. ---