Új, élvonalbeli nyelvi modellek a láthatáron

2023. december 14. · MI Történik? · 1 perc olvasás

A héten több új, csúcskategóriás nyelvi modell is megjelent, közülük is legfontosabb a Together AI StripedHyena-7B modellje. Ez a modell elmozdulást jelent a tisztán Transformer architektúráktól, egy hibrid kialakítást használva, amely ötvözi a multi-head attention technológiát a gated convolution megoldásokkal. A hagyományos Transformer korlátain túllépve a StripedHyena nagyobb hatékonyságot és jobb teljesítményt ér el a hosszú kontextust igénylő feladatokban a Llama 2 7B és a Mistral 7B modellekhez képest. Ezek a megjelenések rávilágítanak az építészeti innováció növekvő trendjére, amely a nagy teljesítményű AI számítási költségeinek csökkentését célozza.

A StripedHyena-7B az Attention és a Gated Convolutions hibrid architektúráját használja
Számos fontos mérésben felülmúlja a Llama 2-t és a Mistral 7B-t
A hosszú kontextusú ablakok hatékonyabb feldolgozására tervezték
Az open-weights (nyílt súlyozású) verziót elérhetővé tették a kutatók és fejlesztők számára

Miért fontos?

A StripedHyena-nál látható architektúrális váltások arra utalnak, hogy az AI következő generációja túlléphet a "csak Transformer" paradigmán a jobb skálázhatóság és hatékonyság érdekében. ---

Eredeti forrás megtekintése (angol) →