MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Tencent kiadta a Hunyuan-Large-ot, egy világszínvonalú kínai nyílt súlyú MoE modellt

A Tencent bemutatta a Hunyuan-Large-ot, egy 389 milliárd paraméteres (ebből 52 milliárd aktív) Mixture-of-Experts (MoE) modellt, amely jelenleg a világ legjobb nyílt súlyú modellje címéért verseng. Számos benchmark teszten a Hunyuan felülmúlja a Meta Llama-3.1 405B modelljét, amelyet széles körben a nyílt modellek jelenlegi csúcsának tartanak. A kutatók egy hatalmas, nem közzétett könyv-, kód- és weboldal-adatbázist gyűjtöttek össze, majd egy szintetikus adatgeneráló folyamatot építettek a bővítésére. Rotary Position Embeddings (RoPE) megoldást használtak a pozíciótanuláshoz és SwiGLU-t az aktiváláshoz. Emellett kisebb modelleken végeztek skálázási törvény vizsgálatokat, hogy meghatározzák a végső futtatáshoz szükséges optimális compute, paraméter és adat arányt, aprólékosan betanítva egy sor MoE modellt 10 milliótól 1 milliárd aktív paraméterig. Bár a modell rendkívül versenyképes, vannak fenntartások: a kínai laborokról néha köztudott, hogy „feljavítják” az értékeléseiket, így a tanulmány állításainak megerősítéséhez közvetlen interakcióra van szükség.
Miért fontos?

Ez a modell bizonyítja, hogy a kínai laborok technikai paritásba kerülnek a nyugati élvonalbeli modellekkel. Az elsődleges különbségnek a compute-hoz való hozzáférés tűnik; ha egyenértékű számítási kapacitást kapnának, ezek a modellek valószínűleg versenyre kelhetnének az OpenAI és az Anthropic zárt rendszereivel is. ---

Eredeti forrás megtekintése (angol) →