AI RESEARCH
A PowerInfer lehetővé teszi a nagy sebességű LLM-következtetést (inference) lakossági GPU-kon és CPU-kon
A sanghaji Jiao Tong Egyetem kutatói kidolgozták, hogyan tehető sokkal hatékonyabbá a nyelvi modellekből történő mintavételezés lakossági PC-ken. A PowerInfer nevű projekt lényege, hogy a nyelvi modell neuronjainak egy részét a helyi GPU-ra, a többit pedig a CPU-ra terheli ki. A kulcsfontosságú felismerés, amin a kutatás alapul, hogy a legtöbb modellnél a neuronok aktiválódása hatványtörvény szerinti eloszlást mutat – a neuronok egy kis csoportja folyamatosan aktív (ezek kerülnek a GPU-ra), míg a többséghez ritkán férnek hozzá, így azok futtathatók a CPU-n is.
A PowerInfer jelenleg a Llama2 modellcsaládot, valamint a Falcon-40B-t támogatja, és a GitHub-oldala szerint hamarosan érkezik a Mistral-7B modell támogatása is. A PowerInfer-t a llama.cpp kiterjesztésével valósították meg, amelyhez 4200 sornyi C++ és CUDA kódot adtak hozzá. Az offline komponense, amely egy profilerből és egy solverből áll, a transformers keretrendszerre épül körülbelül 400 sornyi Python kóddal – írják a szerzők. A PowerInfer támogatja a lakossági kategóriás GPU-kat, mint például az NVIDIA RTX 4090 és az NVIDIA RTX 2080Ti.
- A PowerInfer egy hibrid GPU-CPU következtetési motor, ahol a gyakran aktivált ("hot") neuronokat a gyors hozzáférés érdekében előre betöltik a GPU-ra.
- A ritkán aktivált ("cold") neuronok számítása a CPU-n történik, ami jelentősen csökkenti a GPU memóriigényét és a CPU-GPU közötti adatátvitelt.
- NVIDIA RTX 4090 kártyán kvantált modellek esetén 13,20 token/s, nem kvantált modellek esetén pedig 8,32 token/s sebességet ér el.
- Ez a teljesítmény 8-szoros, illetve 11,69-szeres javulást jelent a llama.cpp-hez képest.
- Egy 2000 dolláros RTX 4090-en a következtetési sebesség mindössze 18%-kal lassabb, mint egy csúcskategóriás, körülbelül 20 000 dollárba kerülő A100 GPU-n.
Miért fontos?
Szabályszerű, hogy minél olcsóbbá válik valami, annál többet használják. Az olyan technológiák, mint a PowerInfer, gazdaságilag ésszerűbbé teszik az olcsóbb hardverek használatát az LLM-ek futtatásához. Ez azt jelenti, hogy több ember fogja használni őket, és a technológia szélesebb körben elterjed. ---