MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Stanford és a UCSD Test-Time Training rétegeket fejlesztett a hosszú kontextusokhoz

A Stanford és a UCSD kutatói bemutatták a Test-Time Training (TTT) rétegeket, a szekvencia-modellező rétegek egy új osztályát. Ezek a rétegek lineáris komplexitással és kifejező rejtett állapotokkal rendelkeznek, amelyek még a teszt-szekvenciákon is tovább tanulnak, így túlszárnyalják a hagyományos Transformer modelleket a hosszú kontextusú feladatokban.
Miért fontos?

Az, hogy egy modell képes „tanulni” vagy alkalmazkodni a tesztidő alatt, megoldhatja az LLM-ek hosszú kontextusablak-feldolgozásának jelentős hatékonysági szűk keresztmetszeteit. ---

Eredeti forrás megtekintése (angol) →