A Mistral új Mixture of Experts modellje felülteljesíti a GPT-3.5-öt

2023. december 14. · MI Történik? · 1 perc olvasás

A Mistral AI kiadta a Mixtral 8x7B-t, egy kiváló minőségű sparse mixture-of-experts (SMoE) modellt nyílt súlyokkal. Ez az architektúra lehetővé teszi, hogy a modell a legtöbb benchmarkon lehagyja a Llama 2 70B-t, miközben jelentősen gyorsabb következtetési (inference) sebességet biztosít. Emellett számos szabványos teszten eléri vagy meghaladja a GPT-3.5 szintjét az érvelés, a matematika és a kódgenerálás terén. A Mixtral 32 ezer tokenes kontextushosszt támogat, és több nyelvet is kezel, köztük az angolt, franciát, olaszt, németet és spanyolt. A modell az Apache 2.0 licenc alatt érhető el, így hatékony nyílt forráskódú alternatívát kínál a fejlesztőknek és kutatóknak, akik a védett modellek szintjét keresik.

Sparse Mixture-of-Experts (SMoE) architektúra.
Összesen 46,7 milliárd paraméter, de tokenenként csak 12,9 milliárd aktív a következtetés (inference) során.
32 ezer tokenes kontextusablak támogatása.
A legtöbb benchmarkon felülteljesíti a Llama 2 70B-t, hatszor gyorsabb következtetés mellett.

Miért fontos?

A Mixtral jelenleg a legjobb nyílt súlyokkal rendelkező modell, ami bizonyítja, hogy az MoE architektúrák élvonalbeli teljesítményt nyújtanak, sokkal nagyobb hatékonysággal, mint a sűrű (dense) modellek.

Eredeti forrás megtekintése (angol) →