Új, élvonalbeli nyelvi modellek a láthatáron
A héten több új, csúcskategóriás nyelvi modell is megjelent, közülük is legfontosabb a Together AI StripedHyena-7B modellje. Ez a modell elmozdulást jelent a tisztán Transformer architektúráktól, egy hibrid kialakítást használva, amely ötvözi a multi-head attention technológiát a gated convolution megoldásokkal.
A hagyományos Transformer korlátain túllépve a StripedHyena nagyobb hatékonyságot és jobb teljesítményt ér el a hosszú kontextust igénylő feladatokban a Llama 2 7B és a Mistral 7B modellekhez képest. Ezek a megjelenések rávilágítanak az építészeti innováció növekvő trendjére, amely a nagy teljesítményű AI számítási költségeinek csökkentését célozza.
- A StripedHyena-7B az Attention és a Gated Convolutions hibrid architektúráját használja
- Számos fontos mérésben felülmúlja a Llama 2-t és a Mistral 7B-t
- A hosszú kontextusú ablakok hatékonyabb feldolgozására tervezték
- Az open-weights (nyílt súlyozású) verziót elérhetővé tették a kutatók és fejlesztők számára
Miért fontos?
A StripedHyena-nál látható architektúrális váltások arra utalnak, hogy az AI következő generációja túlléphet a "csak Transformer" paradigmán a jobb skálázhatóság és hatékonyság érdekében. ---