A Xiaomi elképesztő, másodpercenkénti 1000 tokenes sebességet ért el a MiMo-V2.5-Pro-UltraSpeed modellel
A mesterséges intelligencia fejlesztésében új mérföldkőhöz érkeztünk, miután a Xiaomi bemutatta legújabb, MiMo-V2.5-Pro-UltraSpeed névre hallgató nagy nyelvi modelljét. A vállalat fejlesztőcsapata a Tile AI szakembereivel karöltve olyan technológiai áttörést ért el, amely drasztikusan megváltoztathatja az LLM-ek mindennapi használatát. Az elképesztő, másodpercenként 1000 tokenes inferencia sebesség a modell és a szoftveres környezet szoros együttműködésének köszönhető, amelyet ráadásul nem egyedi, méregdrága, speciális ASIC hardvereken, hanem szabványos, 8 GPU-t tartalmazó szervercsomópontokon sikerült prezentálni. Ez a fejlesztés új szintre emeli az AI-rendszerek hatékonyságát, bizonyítva, hogy az okos szoftveres optimalizáció és az innovatív architektúra képes leküzdeni a korábbi hardveres korlátokat.
Az elért sebesség titka a speciális technológiai megoldásokban rejlik, amelyek közül kiemelkedik az FP4 kvantálás és a DFlash elnevezésű módszer. Az FP4 kvantálás révén a modell paramétereit olyan mértékben tömörítették, hogy azok jelentős erőforrás-megtakarítás mellett is megőrizzék tudásukat, míg a DFlash egy újszerű spekulatív dekódolási technika, amely blokkszintű maszkolt párhuzamos előrejelzést alkalmaz. A TileRT szoftveres keretrendszer mindezt úgy hangolja össze, hogy a rendszer a hétköznapi hardvereken is képes legyen kiaknázni az 1 billió paraméteres óriásmodell képességeit. Ez a megközelítés éles ellentétben áll a piacon megszokott trendekkel, ahol az extrém teljesítményt gyakran csak rendkívül drága, egyedi célhardverekkel lehet elérni.
Ez az innováció nem csupán mérnöki bravúr, hanem stratégiai fontosságú lépés is a jelenlegi piaci környezetben. A fejlesztés rávilágít arra, hogyan reagálnak a kínai technológiai cégek a nemzetközi hardverexport-tilalmakra: az eszközök korlátozottságát kivételes szoftveres hatékonysággal és optimalizációval ellensúlyozzák. Az elért 1000 token/másodperc sebesség azért bír hatalmas jelentőséggel, mert megnyitja az utat a valóban valós idejű, komplex interaktív ágensek és az automatizált szoftver-refaktorálás előtt. Az ilyen sebesség mellett az AI már nem csupán késleltetett választ adó segédprogramként, hanem az emberi gondolkodással lépést tartó, aktív partnerként működhet együtt a felhasználóval, ami a more is different elv alapján teljesen új képességeket szabadíthat fel a jövő AI-alkalmazásaiban.
- 1 billió paraméteres modellarchitektúra.
- DFlash-t használ a blokkszintű maszkolt párhuzamos előrejelzéshez.
- TileRT szoftverrel optimalizálva a hétköznapi hardvereken történő inferenciához.
- Szabványos 8-GPU-s csomópontokon fut, nem pedig egyedi ASIC hardvereken, mint amilyen a Cerebras.
Az extrém sebesség olyan „a több az más” (more is different) képességeket tesz lehetővé, mint a valós idejű szoftver-refaktorálás vagy a komplex interaktív ágensek. Emellett rávilágít arra is, hogyan optimalizálnak a kínai cégek a hatékonyságra a hardverexport-tilalmakra válaszul.