Az Alibaba kiadta a Qwen2.5-Coder modellt, amely a Claude 3.5 Sonnet teljesítményével vetekszik
Az Alibaba frissítette „Qwen” modellsorozatát egy új, nyílt súlyú modellel, a Qwen2.5-Coderrel, amely papíron a legjobb nyugati modellek teljesítményével vetekszik. Különböző kódolási tesztekben a Qwen modellek megközelítik, vagy esetenként meg is haladják az olyan erőteljes zárt modellek teljesítményét, mint a Claude 3.5 Sonnet vagy az OpenAI o1 modelljei.
A fő innováció itt egyszerűen a több adat használata. Konkrétan a Qwen2.5-Coder egy korábbi Qwen 2.5 modell folytatása. Az eredeti Qwen 2.5 modellt 18 billió (trillion) tokenen tanították, a Qwen2.5-Coder pedig további 5,5 billió tokennyi adatot kapott. Ez azt jelenti, hogy a Qwen összesen körülbelül 23 billió tokenen lett tanítva – összehasonlításképpen a Facebook Llama 3 modelljeit körülbelül 15 billió tokenen képezték.
- A teljes tanítási adathalmaz eléri a körülbelül 23 billió tokent, ami a legnagyobb nyilvánosan közzétett mennyiség egyetlen modell esetében.
- 92 különböző programozási nyelvet támogat.
- Elérhető 0,5B, 1,5B, 3B, 7B, 14B és 32B paraméteres változatokban.
- A CodeQwen1.5-öt használták nagyméretű szintetikus adathalmazok generálására az új modell tanításához.
- kifinomult eljárásokat alkalmaztak a kódadatok tisztítására és a gyenge minőségű tartalmak szűrésére.
Miért fontos?
Az a tény, hogy ezek a modellek ilyen jól teljesítenek, azt sugallja, hogy a kínai csapatok és a ranglisták abszolút csúcsa között már csak a számítási kapacitás áll akadályként – tehetségük egyértelműen megvan, és a Qwen tanulmány alapján az adataik is. ---