MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Stanford és a UCSD Test-Time Training rétegeket fejlesztett a hosszú kontextusokhoz

A Stanford és a UCSD kutatói bemutatták a Test-Time Training (TTT) rétegeket, a szekvencia-modellező rétegek egy új osztályát. Ezek a rétegek lineáris komplexitással és kifejező rejtett állapotokkal rendelkeznek, amelyek még a teszt-szekvenciákon is tovább tanulnak, így túlszárnyalják a hagyományos Transformer modelleket a hosszú kontextusú feladatokban.

Miért fontos?

Az, hogy egy modell képes „tanulni” vagy alkalmazkodni a tesztidő alatt, megoldhatja az LLM-ek hosszú kontextusablak-feldolgozásának jelentős hatékonysági szűk keresztmetszeteit. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
Az Apple bemutatja a GSM-Symbolic benchmarkot az LLM-ek matematikai érvelésének értékelésére
2024. október 17.
Az Anthropic Contextual Retrieval megoldása akár 49 százalékkal csökkenti a RAG hibákat
2024. szeptember 26.
A DeepMind SCoRe módszere külső felügyelet nélkül javítja az LLM-ek önjavító képességét
2024. szeptember 26.
Tudj meg többet
Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?