A Microsoft és az UIUC kutatói optimalizálják a GPU-frekvenciát a hatékony LLM következtetés érdekében
Az University of Illinois at Urbana-Champaign és a Microsoft Azure Research kutatói az energiahatékonyság és a teljesítmény közötti kompromisszumokat vizsgálták a nyelvi modellek kiszolgálása során. Ehhez egy 70 milliárd paraméteres LLaMa2 LLM teljesítményét tanulmányozták NVIDIA DGXH100-ason, vLLM használatával. Megállapításuk szerint az AI szolgáltatók hasznos hatékonyságnövekedést érhetnek el az NVIDIA GPU-k működési frekvenciájának változtatásával. Eredményeik alapján az LLM feladatok különböző jellemzőkkel bírnak attól függően, hogy mit kérnek tőlük – rövid bemenet és rövid kimenet, hosszú bemenet és rövid kimenet, vagy hosszú bemenet és hosszú kimenet? Ezek a részletek számítanak, mivel közvetlenül kapcsolódnak az olyan fontos LLM mutatókhoz, mint a tokenek előállításának megkezdéséhez szükséges idő vagy a tokenek közötti idő generálás közben.
Tesztjeik során egyértelmű trendeket találtak: „Ahogy a bemeneti hossz nő, az előtöltési (prefill) fázis számítási intenzitása is növekszik. Ezért világos minta látható: a TTFT-re a frekvencia egyre nagyobb hatással van, és a prompt hosszának növekedésével csökken” – írják. „Az áteresztőképességet (throughput) mind a bemeneti, mind a kimeneti hossz erősen befolyásolja. A hosszabb bemenetek magasabb TBT-t eredményeznek azoknál a kéréseknél, amelyek dekódolási fázisát az előtöltési fázissal együtt kötegelik. A hosszabb kimenetek sorban állási késleltetéshez vezetnek, mivel a modellpéldány több iterációt tölt el minden egyes kérésen.”
Mi a helyzet a frekvenciával, Jensen? A fő konklúzió az, hogy a GPU-kat valószínűleg a maximálisnál valamivel alacsonyabb frekvencián is lehet futtatni anélkül, hogy jelentős teljesítménycsökkenés következne be (különösen, ha figyelembe vesszük a párhuzamosság különböző formáit).
- A bemeneti hossz növekedése növeli az előtöltési fázis számítási intenzitását.
- A TTFT (Time To First Token) mutatóra a frekvencia egyre nagyobb hatással van a prompt hosszának növekedésével.
- Az áteresztőképességet mind a bemeneti, mind a kimeneti hossz befolyásolja.
- A hosszabb kimenetek sorban állási késleltetéshez vezetnek a kérésenkénti több iteráció miatt.
- A GPU-k futtathatók valamivel alacsonyabb frekvencián jelentős teljesítménycsökkenés nélkül specifikus párhuzamos konfigurációkban.
Az adatközpont nem csak egy számítógép, hanem egy agy: A 2000-es évek elején a Google kutatói írtak egy zseniális tanulmányt „az adatközpont a számítógép” címmel, amelyben amellett érveltek, hogy az adatközpontokat egyetlen, nagyméretű számítógépként kell kezelni. Ez a szemléletmód tette sikeressé az olyan cégeket, mint a Google, az Amazon vagy a Facebook – ambiciózus, ipari léptékű gondolkodásmódot hoztak a számítástechnikába. Most, a modern AI rendszerekkel elérkeztünk oda, hogy „az adatközpont az agy” – egy olyan korszakba lépünk, ahol az adatközpontokat az adott agy futtatási sajátosságaihoz (pl. transformer-alapú LLM-ek) és használati mintáihoz szabják, kifejlesztve az AI rendszerek hatékonyságának teljesen új tudományát. ---