AI TELJESÍTMÉNY
A Flash-Decoding drasztikusan felgyorsítja a következtetést a hosszú kontextusú nyelvi modelleknél
Tri Dao, a Together AI startup kutatója és három munkatársa kifejlesztette a Flash-Decoding nevű rendszert, amely jelentősen felgyorsítja a szöveggenerálást a hosszú kontextusú nyelvi modelleknél. Ez azt jelenti, hogy még egy rendkívül hosszú prompt (több ezer vagy tízezer szó) esetén sem lassul le annyira a válaszadási idő. A Flash-Decoding jelentősen felgyorsítja az attention mechanizmust a következtetés (inference) során, akár 8-szoros gyorsulást eredményezve a nagyon hosszú szekvenciáknál.
- A rendszer a kulcsokat és értékeket a lehető leggyorsabban, párhuzamosan tölti be, majd külön-külön skálázza és egyesíti az eredményeket.
- Fenntartja a helyes attention kimeneteket, miközben teljes mértékben kihasználja a GPU-t még kis batch méretek mellett is.
- A CodeLLama 34B-n végzett tesztek kimutatták, hogy a szekvenciahossz 512-ről 64k-ra történő növelése alig van hatással a generálási sebességre.
- A Flash-Decoding nagyon kevés extra adatot tárol a globális memóriában, hasonlóan a FlashAttention-höz.
- Az eljárás orvosolja a legtöbb jelenlegi következtetési módszer gyenge skálázhatóságát a szekvenciahossz növekedésével.
Miért fontos?
Általánosságban elmondható, hogy a mai AI rendszerek nincsenek megfelelően optimalizálva – az olyan megoldások, mint a Flash-Decoding, megmutatják, mennyivel hatékonyabbak lehetnek a rendszerek (akár 8-szoros javulás!), és arra számíthatunk, hogy minden olcsóbbá és hatékonyabbá válik, ahogy egyre több intelligens (többnyire emberi) elme optimalizálja az „AI technológiai stacket”. ---