Nyelvi modellek
A Stanford és a UCSD Test-Time Training rétegeket fejlesztett a hosszú kontextusokhoz
A Stanford és a UCSD kutatói bemutatták a Test-Time Training (TTT) rétegeket, a szekvencia-modellező rétegek egy új osztályát. Ezek a rétegek lineáris komplexitással és kifejező rejtett állapotokkal rendelkeznek, amelyek még a teszt-szekvenciákon is tovább tanulnak, így túlszárnyalják a hagyományos Transformer modelleket a hosszú kontextusú feladatokban.
- Lineáris komplexitás a hosszú szekvenciák feldolgozásához
- Kifejező rejtett állapotok, amelyek frissülnek az következtetés (inference) során
- Bizonyos hosszú kontextusú benchmarkokon túlteljesíti a standard Transformer és RNN modelleket
Miért fontos?
Az, hogy egy modell képes „tanulni” vagy alkalmazkodni a tesztidő alatt, megoldhatja az LLM-ek hosszú kontextusablak-feldolgozásának jelentős hatékonysági szűk keresztmetszeteit. ---