A Flash-Decoding drasztikusan felgyorsítja a következtetést a hosszú kontextusú nyelvi modelleknél

AI TELJESÍTMÉNY

A Flash-Decoding drasztikusan felgyorsítja a következtetést a hosszú kontextusú nyelvi modelleknél

2023. október 16. · MI Történik? · 1 perc olvasás

Tri Dao, a Together AI startup kutatója és három munkatársa kifejlesztette a Flash-Decoding nevű rendszert, amely jelentősen felgyorsítja a szöveggenerálást a hosszú kontextusú nyelvi modelleknél. Ez azt jelenti, hogy még egy rendkívül hosszú prompt (több ezer vagy tízezer szó) esetén sem lassul le annyira a válaszadási idő. A Flash-Decoding jelentősen felgyorsítja az attention mechanizmust a következtetés (inference) során, akár 8-szoros gyorsulást eredményezve a nagyon hosszú szekvenciáknál.

A rendszer a kulcsokat és értékeket a lehető leggyorsabban, párhuzamosan tölti be, majd külön-külön skálázza és egyesíti az eredményeket.
Fenntartja a helyes attention kimeneteket, miközben teljes mértékben kihasználja a GPU-t még kis batch méretek mellett is.
A CodeLLama 34B-n végzett tesztek kimutatták, hogy a szekvenciahossz 512-ről 64k-ra történő növelése alig van hatással a generálási sebességre.
A Flash-Decoding nagyon kevés extra adatot tárol a globális memóriában, hasonlóan a FlashAttention-höz.
Az eljárás orvosolja a legtöbb jelenlegi következtetési módszer gyenge skálázhatóságát a szekvenciahossz növekedésével.

Miért fontos?

Általánosságban elmondható, hogy a mai AI rendszerek nincsenek megfelelően optimalizálva – az olyan megoldások, mint a Flash-Decoding, megmutatják, mennyivel hatékonyabbak lehetnek a rendszerek (akár 8-szoros javulás!), és arra számíthatunk, hogy minden olcsóbbá és hatékonyabbá válik, ahogy egyre több intelligens (többnyire emberi) elme optimalizálja az „AI technológiai stacket”. ---

Eredeti forrás megtekintése (angol) →