A Llamafile optimalizációk akár 500%-os sebességnövekedést hoznak helyi CPU-kon
Az internet csodálatos hely, mert néha feltűnik valaki, akiről még sosem hallottál, masszívan feljavítja egy szoftver teljesítményét, közzéteszi a kódot, és kész. Pontosan ez történt nemrég a llamafile-lal, azzal a szoftverrel, amely megkönnyíti a nyelvi modellek letöltését és futtatását saját számítógépen. Konkrétan egy Justine nevű fejlesztő egy sor teljesítményoptimalizációt vezetett be, aminek köszönhetően a llamafile „30% és 500% közötti mértékben gyorsulhat F16 és Q8_0 súlyok használata esetén CPU-n”.
- A fejlesztő 84 új mátrixszorzási kernelt írt a projekthez.
- A teljesítmény egy HP Intel Core i9-9900 processzoron 15-ről 23 token/másodpercre javult (Mistral 7b).
- A TinyLlama 1.1B az i9-9900-ason 118 tok/mp-ről 171 tok/mp-re ugrott.
- A Raspberry Pi v5-ön 28 tok/mp-ről 62 tok/mp-re javult a TinyLlama 1.1b teljesítménye.
- Az optimalizációk az elterjedt hardvereket célozzák, beleértve a megfizethető fogyasztói CPU-kat és az ARM-alapú processzorokat.
Miért fontos?
Az emberek valóban helyi eszközön szeretnének LLM-eket futtatni, és ez egyre egyszerűbbé válik: Ki birtokolja az AI „termelőeszközeit”? Az olyan projektek, mint a llamafile, egyszerre szoftveres és szabadságjogi projektek – ha hozzáférésed van egy LLM-hez, ezek függetlenítik a futtatási képességedet attól a kényszertől, hogy valaki más internetre kötött PC-jére támaszkodj; ehelyett futtathatod magad is – akár a Raspberry Pi-kben használt „okoskenyérpirító” szintű processzorokon is.