A Microsoft és az UIUC kutatói optimalizálják a GPU-frekvenciát a hatékony LLM következtetés érdekében

2024. április 8. · MI Történik? · 2 perc olvasás

Az University of Illinois at Urbana-Champaign és a Microsoft Azure Research kutatói az energiahatékonyság és a teljesítmény közötti kompromisszumokat vizsgálták a nyelvi modellek kiszolgálása során. Ehhez egy 70 milliárd paraméteres LLaMa2 LLM teljesítményét tanulmányozták NVIDIA DGXH100-ason, vLLM használatával. Megállapításuk szerint az AI szolgáltatók hasznos hatékonyságnövekedést érhetnek el az NVIDIA GPU-k működési frekvenciájának változtatásával. Eredményeik alapján az LLM feladatok különböző jellemzőkkel bírnak attól függően, hogy mit kérnek tőlük – rövid bemenet és rövid kimenet, hosszú bemenet és rövid kimenet, vagy hosszú bemenet és hosszú kimenet? Ezek a részletek számítanak, mivel közvetlenül kapcsolódnak az olyan fontos LLM mutatókhoz, mint a tokenek előállításának megkezdéséhez szükséges idő vagy a tokenek közötti idő generálás közben. Tesztjeik során egyértelmű trendeket találtak: „Ahogy a bemeneti hossz nő, az előtöltési (prefill) fázis számítási intenzitása is növekszik. Ezért világos minta látható: a TTFT-re a frekvencia egyre nagyobb hatással van, és a prompt hosszának növekedésével csökken” – írják. „Az áteresztőképességet (throughput) mind a bemeneti, mind a kimeneti hossz erősen befolyásolja. A hosszabb bemenetek magasabb TBT-t eredményeznek azoknál a kéréseknél, amelyek dekódolási fázisát az előtöltési fázissal együtt kötegelik. A hosszabb kimenetek sorban állási késleltetéshez vezetnek, mivel a modellpéldány több iterációt tölt el minden egyes kérésen.” Mi a helyzet a frekvenciával, Jensen? A fő konklúzió az, hogy a GPU-kat valószínűleg a maximálisnál valamivel alacsonyabb frekvencián is lehet futtatni anélkül, hogy jelentős teljesítménycsökkenés következne be (különösen, ha figyelembe vesszük a párhuzamosság különböző formáit).

A bemeneti hossz növekedése növeli az előtöltési fázis számítási intenzitását.
A TTFT (Time To First Token) mutatóra a frekvencia egyre nagyobb hatással van a prompt hosszának növekedésével.
Az áteresztőképességet mind a bemeneti, mind a kimeneti hossz befolyásolja.
A hosszabb kimenetek sorban állási késleltetéshez vezetnek a kérésenkénti több iteráció miatt.
A GPU-k futtathatók valamivel alacsonyabb frekvencián jelentős teljesítménycsökkenés nélkül specifikus párhuzamos konfigurációkban.

Miért fontos?

Az adatközpont nem csak egy számítógép, hanem egy agy: A 2000-es évek elején a Google kutatói írtak egy zseniális tanulmányt „az adatközpont a számítógép” címmel, amelyben amellett érveltek, hogy az adatközpontokat egyetlen, nagyméretű számítógépként kell kezelni. Ez a szemléletmód tette sikeressé az olyan cégeket, mint a Google, az Amazon vagy a Facebook – ambiciózus, ipari léptékű gondolkodásmódot hoztak a számítástechnikába. Most, a modern AI rendszerekkel elérkeztünk oda, hogy „az adatközpont az agy” – egy olyan korszakba lépünk, ahol az adatközpontokat az adott agy futtatási sajátosságaihoz (pl. transformer-alapú LLM-ek) és használati mintáihoz szabják, kifejlesztve az AI rendszerek hatékonyságának teljesen új tudományát. ---

Eredeti forrás megtekintése (angol) →