A Mistral egy hatalmas, új, open-source LLM-et adott ki
A francia AI-szektor zászlóshajója, a Mistral startup a napokban jelentette be legújabb fejlesztését, a Mixtral 8x22B névre keresztelt, nagy teljesítményű, nyílt forráskódú nagy nyelvi modellt. A vállalat a tőle megszokott szokatlan módon, csendben tette elérhetővé a modellt egy hatalmas, 281 gigabájtos fájlként az X platformon keresztül. Ez az új modell jelentős előrelépést jelent a Mistral kínálatában, hiszen 176 milliárd paraméterével és 65 000 tokenes kontextusablakával a korábbiaknál jóval komplexebb feladatok elvégzésére és hosszabb szövegek kontextusának megértésére képes, amivel célja, hogy felülmúlja a korábbi verziók teljesítményét.
A Mixtral 8x22B technikai háttere az úgynevezett ritka szakértői keverék vagy angol terminológiával élve Sparse Mixture of Experts (SMoE) megközelítésen alapul. Ez az innovatív architektúra ahelyett, hogy egyetlen, mindent tudó modellt használna, több, konkrét feladatokra specializálódott modellrész kombinálásával éri el a magasabb hatékonyságot. A módszer kulcsfontosságú előnye, hogy képes optimalizálni a számítási teljesítményt és az ezzel járó költségeket, így a modell úgy érhet el kimagasló képességeket, hogy közben a futtatása kevésbé erőforrás-igényes, mintha egy hasonló paraméterszámú sűrű modellt használnának.
A bejelentés időzítése nem véletlen, hiszen a Mistral ezzel a lépéssel bekapcsolódott abba az intenzív technológiai versenybe, amelyben ezen a héten szinte az összes nagy piaci szereplő, köztük az OpenAI, a Google és a Meta is új modellfrissítéseket jelentett be, vagy mutatott be a nyilvánosságnak. Az AI-iparban ismét elérkezett az az időszak, amikor a fejlesztők igyekeznek minél magasabbra tenni az LLM-ek mércéjét, folyamatosan feszegetve a technológiai korlátokat.
Ez a fejlemény azért is különösen figyelemre méltó, mert a Mistralhoz hasonló startupok, illetve a hasonló irányvonalat képviselő Cohere bemutatói folyamatosan cáfolják azt az elterjedt elképzelést, miszerint kizárólag a tech óriások rendelkeznének azokkal a hatalmas erőforrásokkal, amelyek a legjobb teljesítményű modellek kifejlesztéséhez szükségesek. Az open-source közösség számára elérhetővé tett fejlesztések alapjaiban írják át a versenytársak közötti erőviszonyokat, és bizonyítják, hogy a megfelelő szakértelemmel és innovatív architektúrával a kisebb, agilisabb csapatok is képesek a piacot meghatározó, élvonalbeli technológiai megoldások létrehozására.
- A Mixtral 8×22B 65 000 tokenes kontextusablakkal és 176 milliárd paraméterrel rendelkezik, és a várakozások szerint képességeiben felülmúlja majd a korábbi Mixtralt.
- A modell egy ritka szakértői keverék (SMoE) megközelítést alkalmaz, amely a feladatokra szakosodott modellek kombinálásával optimalizálja a teljesítményt és a költségeket.
- A Mistral egy olyan vállalati hullámhoz csatlakozik, amelyek ezen a héten modellfrissítéseket adtak ki vagy harangoztak be, beleértve az OpenAI-t, a Google-t és a Meta-t.
Úgy tűnik, megint eljött az az időszak az évben – és az összes nagy szereplő azon igyekszik, hogy még magasabbra tegye az LLM-ek lécét. Az olyan startupok, mint a Mistral és a Cohere lenyűgöző open-source bemutatói azonban továbbra is cáfolják azt az elképzelést, hogy csak a nagy tech óriások rendelkeznek a legjobb teljesítményű modellek fejlesztéséhez szükséges erőforrásokkal. ---