MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Mistral új Mixture of Experts modellje felülteljesíti a GPT-3.5-öt

A Mistral AI kiadta a Mixtral 8x7B-t, egy kiváló minőségű sparse mixture-of-experts (SMoE) modellt nyílt súlyokkal. Ez az architektúra lehetővé teszi, hogy a modell a legtöbb benchmarkon lehagyja a Llama 2 70B-t, miközben jelentősen gyorsabb következtetési (inference) sebességet biztosít. Emellett számos szabványos teszten eléri vagy meghaladja a GPT-3.5 szintjét az érvelés, a matematika és a kódgenerálás terén. A Mixtral 32 ezer tokenes kontextushosszt támogat, és több nyelvet is kezel, köztük az angolt, franciát, olaszt, németet és spanyolt. A modell az Apache 2.0 licenc alatt érhető el, így hatékony nyílt forráskódú alternatívát kínál a fejlesztőknek és kutatóknak, akik a védett modellek szintjét keresik.
Miért fontos?

A Mixtral jelenleg a legjobb nyílt súlyokkal rendelkező modell, ami bizonyítja, hogy az MoE architektúrák élvonalbeli teljesítményt nyújtanak, sokkal nagyobb hatékonysággal, mint a sűrű (dense) modellek.

Eredeti forrás megtekintése (angol) →