A Stanford és a UCSD Test-Time Training rétegeket fejlesztett a hosszú kontextusokhoz

Nyelvi modellek

A Stanford és a UCSD Test-Time Training rétegeket fejlesztett a hosszú kontextusokhoz

2024. július 11. · MI Történik? · 1 perc olvasás

A Stanford és a UCSD kutatói bemutatták a Test-Time Training (TTT) rétegeket, a szekvencia-modellező rétegek egy új osztályát. Ezek a rétegek lineáris komplexitással és kifejező rejtett állapotokkal rendelkeznek, amelyek még a teszt-szekvenciákon is tovább tanulnak, így túlszárnyalják a hagyományos Transformer modelleket a hosszú kontextusú feladatokban.

Lineáris komplexitás a hosszú szekvenciák feldolgozásához
Kifejező rejtett állapotok, amelyek frissülnek az következtetés (inference) során
Bizonyos hosszú kontextusú benchmarkokon túlteljesíti a standard Transformer és RNN modelleket

Miért fontos?

Az, hogy egy modell képes „tanulni” vagy alkalmazkodni a tesztidő alatt, megoldhatja az LLM-ek hosszú kontextusablak-feldolgozásának jelentős hatékonysági szűk keresztmetszeteit. ---

Eredeti forrás megtekintése (angol) →