A Microsoft és az UIUC kutatói optimalizálják a GPU-frekvenciát a hatékony LLM következtetés érdekében
- A bemeneti hossz növekedése növeli az előtöltési fázis számítási intenzitását.
- A TTFT (Time To First Token) mutatóra a frekvencia egyre nagyobb hatással van a prompt hosszának növekedésével.
- Az áteresztőképességet mind a bemeneti, mind a kimeneti hossz befolyásolja.
- A hosszabb kimenetek sorban állási késleltetéshez vezetnek a kérésenkénti több iteráció miatt.
- A GPU-k futtathatók valamivel alacsonyabb frekvencián jelentős teljesítménycsökkenés nélkül specifikus párhuzamos konfigurációkban.
Az adatközpont nem csak egy számítógép, hanem egy agy: A 2000-es évek elején a Google kutatói írtak egy zseniális tanulmányt „az adatközpont a számítógép” címmel, amelyben amellett érveltek, hogy az adatközpontokat egyetlen, nagyméretű számítógépként kell kezelni. Ez a szemléletmód tette sikeressé az olyan cégeket, mint a Google, az Amazon vagy a Facebook – ambiciózus, ipari léptékű gondolkodásmódot hoztak a számítástechnikába. Most, a modern AI rendszerekkel elérkeztünk oda, hogy „az adatközpont az agy” – egy olyan korszakba lépünk, ahol az adatközpontokat az adott agy futtatási sajátosságaihoz (pl. transformer-alapú LLM-ek) és használati mintáihoz szabják, kifejlesztve az AI rendszerek hatékonyságának teljesen új tudományát. ---