A FlashAttention-3 javítja az AI oktatás hatékonyságát és a GPU kihasználtságát

2024. július 15. · MI Történik? · 1 perc olvasás

A Colfax Research, a Meta, az NVIDIA, a Georgia Tech, a Princeton University és a Together.ai kutatói kiadták a FlashAttention-3-at, amely a széles körben használt Transformer architektúra bizonyos figyelem-mechanizmusainak (attention mechanisms) legújabb, közvetlenül beilleszthető helyettesítője. A FlashAttention-3 „1,5–2-szer gyorsabb, mint a FlashAttention-2 FP16 használatával, elérve a 740 TFLOPS-ot, ami a H100 elméleti maximális FLOPS-értékének 75%-os kihasználtságát jelenti. FP8 használatával a FlashAttention-3 megközelíti az 1,2 PFLOPS-ot, 2,6-szor kisebb hibával, mint az alapértelmezett FP8 figyelem.” Néhány figyelemre méltó példa a FlashAttention használatára: a Google egy olyan modellben alkalmazta, amely a Stable Diffusion-t mobiltelefonokra optimalizálta, a ByteDance pedig a FlashAttention-2-t használta a több mint 10 000 GPU-t mozgósító „MegaScale” modellbetanítási keretrendszerében.

Jobb GPU kihasználtság.
Jobb teljesítmény alacsony precizitású oktatás (például FP8) esetén.
Hatékonyabb hosszú kontextusok kezelése.

Miért fontos?

Az olyan szoftveres fejlesztéseket, mint a FlashAttention-3, széles körben alkalmazzák az AI-rendszerekben, mivel egy olyan alapvető folyamatban segítenek, amelyet rendkívül gyakran végeznek (ezek a figyelem-műveletek). Ezért a FlashAttention-3-hoz hasonló technológiák javulása széles körű hatással lesz a legtöbb Transformer-alapú AI-rendszerre. „Reméljük, hogy egy gyorsabb és pontosabb alapművelet, mint ez a figyelem-mechanizmus, új alkalmazási lehetőségeket nyit meg a hosszú kontextust igénylő feladatokban” – írják a kutatók. ---

Eredeti forrás megtekintése (angol) →