A DeepSeek AI a GPT-3.5-tel és a LLaMa2-vel rivalizáló, nagy teljesítményű nyelvi modelleket adott ki

2024. január 15. · MI Történik? · 1 perc olvasás

A DeepSeek AI, egy kínai AGI vállalat kutatói olyan nagy nyelvi modellcsaládot hoztak létre, amelynek teljesítménye állításuk szerint vetekszik a ChatGPT 3.5-ével. Kiadtak két kisebb (~7 milliárd paraméteres) változatot is. A DeepSeek modelleket egy 2 billió tokenből álló adatkészleten tanították (amely főként kínai és angol nyelvű). A modellek nagyjából a Facebook LLaMa modellcsaládján alapulnak, bár a koszinuszos tanulási sebesség ütemezőt (learning rate scheduler) többlépcsős ütemezőre cserélték.

Instrukció-hangolás (Instruction tuning): A modell teljesítményének javítása érdekében körülbelül 1,5 millió instrukciós adatbeszélgetést gyűjtöttek össze a felügyelt finomhangoláshoz (SFT), „a segítőkészség és a veszélytelenség témaköreinek széles skáláját lefedve”. A segítőkész adatok ~31,2%-a általános nyelvi feladatokhoz, ~46,6%-a matematikai problémamegoldáshoz, és ~22,2% kódolási gyakorlatokhoz kapcsolódik. A biztonsági adatok különböző érzékeny témákat és a Kínai Kommunista Párt preferenciáihoz való igazodást fedik le. A modellt tovább képezték a Direct Preference Optimization (DPO) algoritmussal, amely erősíti a modell nyitott végű generálási készségeit.

A tesztek során a 67B paraméteres modelljük az angol nyelvű tesztek többségében és az összes kínai nyelvű tesztben legyőzte a LLaMa2 70B modellt. Jól teljesít olyan benchmarkokon is, mint a LeetCode és az IFEval, bár a GPT-4-től még elmarad.

2 billió tokenből álló adatkészleten tanítva (kínai és angol).
A koszinuszos tanulási sebesség ütemezőt többlépcsős ütemezőre cserélték.
1,5 millió instrukciós beszélgetést használtak a finomhangoláshoz.
Direct Preference Optimization (DPO) algoritmust alkalmaz.
A 67B modell a legtöbb benchmarkban felülteljesíti a LLaMa2 70B-t.

Miért fontos?

A nyelvi modellek ma már széles körben elterjedt és megértett technológiának számítanak. Világszerte számos csapat képes már nem triviális rendszerek teljes körű fejlesztésére, az adatgyűjtéstől az architektúra tervezésén át az emberi kalibrációig. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A NEURA Robotics 1,4 milliárd dollárt gyűjtött az Amazon, az Nvidia és a Qualcomm bevonásával

most

Információarchitekt prompt az összetett részletek közérthető felismerésekké alakításához

2 órája

Boston Dynamics Spot robotok járőröznek a 2026-os FIFA Világbajnokság stadionjaiban

4 órája

Tudj meg többet

Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?

DeepSeek vs. ChatGPT vs. Claude: Melyik AI gondolkodik a legjobban?