MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Test-Time Training End-to-End (TTT-E2E) kezeli a hosszú LLM bemeneteket

A nagy nyelvi modellek (LLM-ek) jellemzően pontatlanabbá és lassabbá válnak, amikor hosszabb kontextusokat dolgoznak fel, de a kutatók lehetővé tették egy LLM számára, hogy stabil pontosságot és állandó inference időt tartson fenn, miközben a kontextus mérete nőtt. Mi az új: Arnuv Tandon, Karan Dalal és kollégáik a nonprofit Astera Institute, Nvidia, Stanford, UC Berkeley és UC San Diego intézményekben bemutatták a Test-Time Training, End-to-End (TTT-E2E) módszert, amely inference során történő tréningezéssel tömöríti a kontextust egy transformer súlyaiba. Kulcsfontosságú felismerés: A transformer architektúrára épülő LLM-ek a teljes kontextusra (az eddig bemeneti és kimeneti tokenekre) figyelnek, hogy generálják a következő kimeneti tokent. Így minden új kimeneti token generálása több feldolgozást igényel, mint az előző, ami potenciálisan drágává és lassúvá teszi az inference-t. A teljes kontextus figyelése helyett egy transformer korlátozhatja a figyelmét egy kisebb, fix méretű ablakra – ami állandóan tartja az egyes kimeneti tokenek generálásához szükséges időt –, és a súlyainak frissítésével tanulhat a kontextusból. Hogyan működik: A szerzők egy 3 milliárd paraméteres transformert építettek, amely sliding-window attentiont alkalmazott, ami a figyelmet egy fix, 8000 token méretű ablakra korlátozta. A modellt 8000 tokenből álló szekvenciákon – összesen 164 milliárd tokenen – pretrainelték, amelyeket a webről kapart szövegek szűrt adathalmazából vettek. Annak érdekében, hogy hosszabb kontextusokat is tudjon követni, finomhangolták (fine-tuned) 128 000 token hosszú szekvenciákon, amelyeket a The Pile Books alhalmazából vettek. A szerzők a meta-learning egy formáját alkalmazták, azaz a tanulás tanulását; ebben az esetben a modell azt tanulja meg, hogyan tanuljon az inference időben kapott bemenetből. Eredmények: A szerzők összehasonlították a TTT-E2E-t egy konvencionális attentionnel rendelkező transformerrel, valamint olyan rendkívül hatékony architektúrákkal, mint a Mamba 2 (egy rekurens neurális hálózat stílusú modell) és a Gated DeltaNet (amely lineáris attention egyedi formáját használja). Pontossága kissé meghaladta a transformerét hosszú kontextusokon – kivéve a Needle-in-a-Haystack feladatot, amely egy rövid célstring visszaállítását jelenti egy hosszú kontextusból –, és ugyanolyan gyorsan generált kimeneti tokeneket, mint a hatékonyabb architektúrák, ahogy a kontextus nőtt. Kivételes inference sebessége lassabb és komplexebb tréning árán jött létre.
Miért fontos?

Miért fontos ez: Az inference során történő tanulás egy olyan megközelítést kínál a hosszú kontextusok feldolgozására, amely egyszerűbb, mint egyedi attention mechanizmusok vagy rekurens architektúrák tervezése. Ez a munka a problémát a tréning és az inference közötti kompromisszumként fogalmazza meg: Az inference során történő feldolgozás olcsóbb és tokenenként konzisztensebb, de a tréning lassabb.

Eredeti forrás megtekintése (angol) →