A Tencent kiadta a Hunyuan-Large-ot, egy világszínvonalú kínai nyílt súlyú MoE modellt

AI MODELLEK

A Tencent kiadta a Hunyuan-Large-ot, egy világszínvonalú kínai nyílt súlyú MoE modellt

2024. november 11. · MI Történik? · 1 perc olvasás

A Tencent bemutatta a Hunyuan-Large-ot, egy 389 milliárd paraméteres (ebből 52 milliárd aktív) Mixture-of-Experts (MoE) modellt, amely jelenleg a világ legjobb nyílt súlyú modellje címéért verseng. Számos benchmark teszten a Hunyuan felülmúlja a Meta Llama-3.1 405B modelljét, amelyet széles körben a nyílt modellek jelenlegi csúcsának tartanak. A kutatók egy hatalmas, nem közzétett könyv-, kód- és weboldal-adatbázist gyűjtöttek össze, majd egy szintetikus adatgeneráló folyamatot építettek a bővítésére. Rotary Position Embeddings (RoPE) megoldást használtak a pozíciótanuláshoz és SwiGLU-t az aktiváláshoz. Emellett kisebb modelleken végeztek skálázási törvény vizsgálatokat, hogy meghatározzák a végső futtatáshoz szükséges optimális compute, paraméter és adat arányt, aprólékosan betanítva egy sor MoE modellt 10 milliótól 1 milliárd aktív paraméterig. Bár a modell rendkívül versenyképes, vannak fenntartások: a kínai laborokról néha köztudott, hogy „feljavítják” az értékeléseiket, így a tanulmány állításainak megerősítéséhez közvetlen interakcióra van szükség.

Összesen 389 milliárd paraméterrel rendelkezik, amelyből következtetéskor (inference) 52 milliárd paraméter aktív.
Felülteljesíti a Llama-3.1 405B-t olyan feladatokban, mint az MMLU (nyelvi érvelés), Big Bench Hard, GSM8K és MATH.
Szintetikus adatgeneráló folyamatot alkalmaz a hatalmas előtanítási adathalmaz kiegészítésére.
Az optimális konfigurációt isoFLOPs görbék és skálázási törvény tanulmányok segítségével határozták meg 10M és 1B paraméter közötti modelleken.
A Llama-3.1 405B megőrizte kismértékű előnyét bizonyos nehéz benchmarkokon, mint az MMLU-Pro és az ARC-C.

Miért fontos?

Ez a modell bizonyítja, hogy a kínai laborok technikai paritásba kerülnek a nyugati élvonalbeli modellekkel. Az elsődleges különbségnek a compute-hoz való hozzáférés tűnik; ha egyenértékű számítási kapacitást kapnának, ezek a modellek valószínűleg versenyre kelhetnének az OpenAI és az Anthropic zárt rendszereivel is. ---

Eredeti forrás megtekintése (angol) →