A DeepSeek AI a GPT-3.5-tel és a LLaMa2-vel rivalizáló, nagy teljesítményű nyelvi modelleket adott ki
A DeepSeek AI, egy kínai AGI vállalat kutatói olyan nagy nyelvi modellcsaládot hoztak létre, amelynek teljesítménye állításuk szerint vetekszik a ChatGPT 3.5-ével. Kiadtak két kisebb (~7 milliárd paraméteres) változatot is. A DeepSeek modelleket egy 2 billió tokenből álló adatkészleten tanították (amely főként kínai és angol nyelvű). A modellek nagyjából a Facebook LLaMa modellcsaládján alapulnak, bár a koszinuszos tanulási sebesség ütemezőt (learning rate scheduler) többlépcsős ütemezőre cserélték.
Instrukció-hangolás (Instruction tuning): A modell teljesítményének javítása érdekében körülbelül 1,5 millió instrukciós adatbeszélgetést gyűjtöttek össze a felügyelt finomhangoláshoz (SFT), „a segítőkészség és a veszélytelenség témaköreinek széles skáláját lefedve”. A segítőkész adatok ~31,2%-a általános nyelvi feladatokhoz, ~46,6%-a matematikai problémamegoldáshoz, és ~22,2% kódolási gyakorlatokhoz kapcsolódik. A biztonsági adatok különböző érzékeny témákat és a Kínai Kommunista Párt preferenciáihoz való igazodást fedik le. A modellt tovább képezték a Direct Preference Optimization (DPO) algoritmussal, amely erősíti a modell nyitott végű generálási készségeit.
A tesztek során a 67B paraméteres modelljük az angol nyelvű tesztek többségében és az összes kínai nyelvű tesztben legyőzte a LLaMa2 70B modellt. Jól teljesít olyan benchmarkokon is, mint a LeetCode és az IFEval, bár a GPT-4-től még elmarad.
- 2 billió tokenből álló adatkészleten tanítva (kínai és angol).
- A koszinuszos tanulási sebesség ütemezőt többlépcsős ütemezőre cserélték.
- 1,5 millió instrukciós beszélgetést használtak a finomhangoláshoz.
- Direct Preference Optimization (DPO) algoritmust alkalmaz.
- A 67B modell a legtöbb benchmarkban felülteljesíti a LLaMa2 70B-t.
Miért fontos?
A nyelvi modellek ma már széles körben elterjedt és megértett technológiának számítanak. Világszerte számos csapat képes már nem triviális rendszerek teljes körű fejlesztésére, az adatgyűjtéstől az architektúra tervezésén át az emberi kalibrációig. ---