MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Alibaba kiadta a Qwen2.5-Coder modellt, amely a Claude 3.5 Sonnet teljesítményével vetekszik

Az Alibaba frissítette „Qwen” modellsorozatát egy új, nyílt súlyú modellel, a Qwen2.5-Coderrel, amely papíron a legjobb nyugati modellek teljesítményével vetekszik. Különböző kódolási tesztekben a Qwen modellek megközelítik, vagy esetenként meg is haladják az olyan erőteljes zárt modellek teljesítményét, mint a Claude 3.5 Sonnet vagy az OpenAI o1 modelljei. A fő innováció itt egyszerűen a több adat használata. Konkrétan a Qwen2.5-Coder egy korábbi Qwen 2.5 modell folytatása. Az eredeti Qwen 2.5 modellt 18 billió (trillion) tokenen tanították, a Qwen2.5-Coder pedig további 5,5 billió tokennyi adatot kapott. Ez azt jelenti, hogy a Qwen összesen körülbelül 23 billió tokenen lett tanítva – összehasonlításképpen a Facebook Llama 3 modelljeit körülbelül 15 billió tokenen képezték.
Miért fontos?

Az a tény, hogy ezek a modellek ilyen jól teljesítenek, azt sugallja, hogy a kínai csapatok és a ranglisták abszolút csúcsa között már csak a számítási kapacitás áll akadályként – tehetségük egyértelműen megvan, és a Qwen tanulmány alapján az adataik is. ---

Eredeti forrás megtekintése (angol) →