A Mistral új Mixture of Experts modellje felülteljesíti a GPT-3.5-öt
A Mistral AI kiadta a Mixtral 8x7B-t, egy kiváló minőségű sparse mixture-of-experts (SMoE) modellt nyílt súlyokkal. Ez az architektúra lehetővé teszi, hogy a modell a legtöbb benchmarkon lehagyja a Llama 2 70B-t, miközben jelentősen gyorsabb következtetési (inference) sebességet biztosít. Emellett számos szabványos teszten eléri vagy meghaladja a GPT-3.5 szintjét az érvelés, a matematika és a kódgenerálás terén.
A Mixtral 32 ezer tokenes kontextushosszt támogat, és több nyelvet is kezel, köztük az angolt, franciát, olaszt, németet és spanyolt. A modell az Apache 2.0 licenc alatt érhető el, így hatékony nyílt forráskódú alternatívát kínál a fejlesztőknek és kutatóknak, akik a védett modellek szintjét keresik.
- Sparse Mixture-of-Experts (SMoE) architektúra.
- Összesen 46,7 milliárd paraméter, de tokenenként csak 12,9 milliárd aktív a következtetés (inference) során.
- 32 ezer tokenes kontextusablak támogatása.
- A legtöbb benchmarkon felülteljesíti a Llama 2 70B-t, hatszor gyorsabb következtetés mellett.
Miért fontos?
A Mixtral jelenleg a legjobb nyílt súlyokkal rendelkező modell, ami bizonyítja, hogy az MoE architektúrák élvonalbeli teljesítményt nyújtanak, sokkal nagyobb hatékonysággal, mint a sűrű (dense) modellek.