A DeepSeek-Coder nyílt forráskódú modelljei felülmúlják a GPT-3.5-öt a kódolási teszteken

NYÍLT FORRÁSKÓD

A DeepSeek-Coder nyílt forráskódú modelljei felülmúlják a GPT-3.5-öt a kódolási teszteken

2023. november 2. · MI Történik? · 1 perc olvasás

A DeepSeek-AI csapata kiadta a DeepSeek-Coder-t, egy nyílt forráskódú, kódközpontú modellsorozatot 1,3 és 33 milliárd paraméter közötti méretekben. Ezeket a modelleket a nulláról képezték egy hatalmas, 2 billió tokenes adatkészleten, amelynek 87%-a különféle forráskódokból áll. A 33 milliárd paraméteres modell különösen figyelemre méltó, mivel a legfontosabb kódolási teszteken (pl. HumanEval és MBPP) túlszárnyalja a GPT-3.5 Turbo-t, így erőteljes alternatívát kínál a védett modellekkel szemben.

2 billió tokenen tanították, nagy hangsúlyt fektetve a forráskódokra és az angol nyelvre
Több méretben elérhető, a 33B modell pedig kódolási szakértelemben veri a GPT-3.5 Turbo-t
Támogatja a projektszintű kódkiegészítést 16 000 tokenes kontextusablakkal
Megengedő licenccel rendelkezik, amely széles körű kereskedelmi felhasználást tesz lehetővé

Miért fontos?

Az olyan szakosodott, nyílt forráskódú modellek felemelkedése, amelyek a szoftverfejlesztéshez hasonló területeken felveszik a versenyt a védett óriásokkal, csökkenti a költségeket és a belépési korlátokat a fejlesztők számára világszerte.

Eredeti forrás megtekintése (angol) →