MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az IBM Granite 4.0 hibrid architektúrája megoldja az LLM memória- és késleltetési skálázási problémáit

Az IBM munkatársa, David Cox nemrég részletezte, hogyan használ a Granite 4.0 hibrid architektúrákat a KV cache (key value cache) probléma megoldására, ahol a kontextus megduplázása korábban a késleltetés négyszereződésével járt. A standard transzformerekben minden token kulcsokat és értékeket dolgoz fel, amelyeket gyorsítótárazni kell; minél hosszabb a kontextus, annál több memória fogy, és annál lassabbá válik a generálás. Az IBM megoldása szerint csak minden n-edik réteget futtatják attention-nel, ami 10-szer kisebb memóriahasználatot és 10-szer gyorsabb inference-t eredményez, lehetővé téve a modellek futtatását lakossági hardvereken. Az IBM foglalkozott a pozicionális beágyazások „taffy problémájával” is. A standard modelleket gyakran kis kontextusra tanítják, majd „megnyújtják”, ami hibákhoz vezet a tanítási hosszon túl. A hibrid modellekből a pozíció-beágyazások teljes elhagyásával az IBM olyan rendszereket hozott létre, amelyek tetszőleges kontextushosszon működnek, mivel nincs bennük semmi pozíciófüggő, ami elromolhatna. Emellett „aktivált alacsony rangú adaptereket” (activated low-rank adapters) fejlesztettek ki, amelyek lehetővé teszik a felhasználók számára a specializált viselkedések – például a hallucináció-detektálás – forró cseréjét (hot-swap) egy futó modellben az alap súlyok módosítása nélkül.
Miért fontos?

Ezek az architektúrális áttörések a jelenlegi LLM-ek alapvető korlátait kezelik – különösen a magas késleltetést, a hatalmas memóriaigényt és a hosszú kontextusok minőségromlás nélküli kezelésének képtelenségét. ---

Eredeti forrás megtekintése (angol) →