NAGY NYELVI MODELLEK
A Microsoft és az AI21 új modellekkel feszegeti az open-source határait
Az open-source AI közösség jelentős fejlődésen ment keresztül a Microsoft Phi 3.5 sorozatának és az AI21 Jamba modellcsaládjának megjelenésével. A Microsoft új modelljei skálázható érvelési képességeket kínálnak kereskedelmi használatra, míg az AI21 Jamba modelljei az open-source modellek körében jelenleg elérhető leghosszabb, 256 ezer tokenes kontextusablakkal rendelkeznek.
- A Microsoft kiadta a Phi 3.5 mini-instruct, MoE-instruct és vision-instruct modelleket
- Az AI21 Jamba modelljei Mamba-Transformer architektúrát használnak a nagy teljesítmény érdekében
- Az AI2 bemutatta az OLMoE-t, egy ritka Mixture-of-Experts modellt, amely túlszárnyalja az olyan nagyobb modelleket is, mint a Llama2-13B
Miért fontos?
A zárt forráskódú és az open-source modellek közötti szakadék szűkülése nagyobb rugalmasságot és kontrollt biztosít a fejlesztőknek az AI-telepítések felett, anélkül, hogy feláldoznák a teljesítményt.