Az MIT bemutatta a DuoAttention keretrendszert az LLM memóriahasználatának 2,5-szeres csökkentésére

NYELVI MODELLEK

Az MIT bemutatta a DuoAttention keretrendszert az LLM memóriahasználatának 2,5-szeres csökkentésére

2024. október 17. · MI Történik? · 1 perc olvasás

Az MIT kutatói nyílt forráskódúvá tették a DuoAttentiont, egy olyan keretrendszert, amely optimalizálja a KV (Key-Value) gyorsítótárazást a memóriaigény csökkentése érdekében. Azáltal, hogy azonosítja, mely attention head-ek igényelnek teljes kontextust és melyek nyeshetők le, a rendszer hatékonyabbá teszi a hosszú szekvenciák feldolgozását.

Akár 2,5-szeresére csökkenti az LLM memóriaigényét
2-szeresére gyorsítja a dekódolási folyamatot
Megőrzi a modell képességét a hosszú kontextusablakok kezelésére
Azonosítja a specifikus "lekérdező" (retrieval) head-eket a pontosság fenntartása érdekében, miközben a többit optimalizálja

Miért fontos?

A memóriakorlátok jelentik a legfőbb akadályt a hosszú kontextusú LLM-ek alkalmazásánál. A DuoAttention utat mutat az erősebb modellek szerényebb hardvereken való futtatásához. ---

Eredeti forrás megtekintése (angol) →