MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A PowerInfer lehetővé teszi a nagy sebességű LLM-következtetést (inference) lakossági GPU-kon és CPU-kon

A sanghaji Jiao Tong Egyetem kutatói kidolgozták, hogyan tehető sokkal hatékonyabbá a nyelvi modellekből történő mintavételezés lakossági PC-ken. A PowerInfer nevű projekt lényege, hogy a nyelvi modell neuronjainak egy részét a helyi GPU-ra, a többit pedig a CPU-ra terheli ki. A kulcsfontosságú felismerés, amin a kutatás alapul, hogy a legtöbb modellnél a neuronok aktiválódása hatványtörvény szerinti eloszlást mutat – a neuronok egy kis csoportja folyamatosan aktív (ezek kerülnek a GPU-ra), míg a többséghez ritkán férnek hozzá, így azok futtathatók a CPU-n is. A PowerInfer jelenleg a Llama2 modellcsaládot, valamint a Falcon-40B-t támogatja, és a GitHub-oldala szerint hamarosan érkezik a Mistral-7B modell támogatása is. A PowerInfer-t a llama.cpp kiterjesztésével valósították meg, amelyhez 4200 sornyi C++ és CUDA kódot adtak hozzá. Az offline komponense, amely egy profilerből és egy solverből áll, a transformers keretrendszerre épül körülbelül 400 sornyi Python kóddal – írják a szerzők. A PowerInfer támogatja a lakossági kategóriás GPU-kat, mint például az NVIDIA RTX 4090 és az NVIDIA RTX 2080Ti.
Miért fontos?

Szabályszerű, hogy minél olcsóbbá válik valami, annál többet használják. Az olyan technológiák, mint a PowerInfer, gazdaságilag ésszerűbbé teszik az olcsóbb hardverek használatát az LLM-ek futtatásához. Ez azt jelenti, hogy több ember fogja használni őket, és a technológia szélesebb körben elterjed. ---

Eredeti forrás megtekintése (angol) →