Az Alibaba kiadta a Qwen2.5-Coder modellt, amely a Claude 3.5 Sonnet teljesítményével vetekszik

2024. november 18. · MI Történik? · 1 perc olvasás

Az Alibaba frissítette „Qwen” modellsorozatát egy új, nyílt súlyú modellel, a Qwen2.5-Coderrel, amely papíron a legjobb nyugati modellek teljesítményével vetekszik. Különböző kódolási tesztekben a Qwen modellek megközelítik, vagy esetenként meg is haladják az olyan erőteljes zárt modellek teljesítményét, mint a Claude 3.5 Sonnet vagy az OpenAI o1 modelljei. A fő innováció itt egyszerűen a több adat használata. Konkrétan a Qwen2.5-Coder egy korábbi Qwen 2.5 modell folytatása. Az eredeti Qwen 2.5 modellt 18 billió (trillion) tokenen tanították, a Qwen2.5-Coder pedig további 5,5 billió tokennyi adatot kapott. Ez azt jelenti, hogy a Qwen összesen körülbelül 23 billió tokenen lett tanítva – összehasonlításképpen a Facebook Llama 3 modelljeit körülbelül 15 billió tokenen képezték.

A teljes tanítási adathalmaz eléri a körülbelül 23 billió tokent, ami a legnagyobb nyilvánosan közzétett mennyiség egyetlen modell esetében.
92 különböző programozási nyelvet támogat.
Elérhető 0,5B, 1,5B, 3B, 7B, 14B és 32B paraméteres változatokban.
A CodeQwen1.5-öt használták nagyméretű szintetikus adathalmazok generálására az új modell tanításához.
kifinomult eljárásokat alkalmaztak a kódadatok tisztítására és a gyenge minőségű tartalmak szűrésére.

Miért fontos?

Az a tény, hogy ezek a modellek ilyen jól teljesítenek, azt sugallja, hogy a kínai csapatok és a ranglisták abszolút csúcsa között már csak a számítási kapacitás áll akadályként – tehetségük egyértelműen megvan, és a Qwen tanulmány alapján az adataik is. ---

Eredeti forrás megtekintése (angol) →