NYELVI MODELLEK
Az MIT bemutatta a DuoAttention keretrendszert az LLM memóriahasználatának 2,5-szeres csökkentésére
Az MIT kutatói nyílt forráskódúvá tették a DuoAttentiont, egy olyan keretrendszert, amely optimalizálja a KV (Key-Value) gyorsítótárazást a memóriaigény csökkentése érdekében. Azáltal, hogy azonosítja, mely attention head-ek igényelnek teljes kontextust és melyek nyeshetők le, a rendszer hatékonyabbá teszi a hosszú szekvenciák feldolgozását.
- Akár 2,5-szeresére csökkenti az LLM memóriaigényét
- 2-szeresére gyorsítja a dekódolási folyamatot
- Megőrzi a modell képességét a hosszú kontextusablakok kezelésére
- Azonosítja a specifikus "lekérdező" (retrieval) head-eket a pontosság fenntartása érdekében, miközben a többit optimalizálja
Miért fontos?
A memóriakorlátok jelentik a legfőbb akadályt a hosszú kontextusú LLM-ek alkalmazásánál. A DuoAttention utat mutat az erősebb modellek szerényebb hardvereken való futtatásához. ---