A DeepSeek kiadta a DeepSeek-V2-t, egy gazdaságos Mixture-of-Experts nyelvi modellt
A kínai DeepSeek startup megalkotta és közzétette a DeepSeek-V2-t, egy meglepően erős nyelvi modellt. A DeepSeek-V2 egy nagyméretű modell, amely olyan vezető rendszerekkel versenyez, mint a LLaMA 3, a Mixtral, a DBRX, valamint olyan kínai modellekkel, mint a Qwen-1.5 és a DeepSeek V1. A modell legyőzi a Meta 70B paraméteres LLaMA 3 modelljét több nehéz feladatban, beleértve a matematikát (43,6% vs. 42,2%) és az MMLU kínai változatát, a CMMLU-t.
A DeepSeek-V2 egy Transformer-alapú Mixture-of-Experts modell, amely összesen 236 milliárd paraméterből áll, ebből tokenenként 21 milliárd aktiválódik. A modellt egy „8,1 billió tokenből álló változatos és kiváló minőségű korpuszon” tanították elő. A DeepSeek-V2 egy jelentős innovációval, az MLA-val (Multi-head Latent Attention) érkezik. Az MLA segít sokkal olcsóbbá tenni a modell inference folyamatát azáltal, hogy a kulcsokat (keys) és értékeket (values) egyetlen látens vektorba tömöríti, ami lehetővé teszi az inference-idő alatti key-value cache szűk keresztmetszetének kiküszöbölését. A feed-forward hálózati komponensekhez a DeepSeekMoE architektúrát használják, amely finomabb szemcsézettségű szakértőkre (experts) bontja a hálózatot a nagyobb specializáció érdekében.
- Összes paraméterszám: 236 milliárd (21 milliárd aktiválódik tokenenként).
- 8,1 billió tokenen előtanítva NVIDIA H800 GPU-k használatával.
- Bevezeti a Multi-head Latent Attention (MLA) technológiát a KV cache csökkentése és az inference hatékonyságának növelése érdekében.
- A DeepSeekMoE architektúrát használja, amellyel túlteljesíti a hagyományos MoE architektúrákat, mint például a GShard.
- Egyedi CUDA kernelek a kommunikációhoz és az összevont lineáris számításokhoz.
Miért fontos?
A DeepSeek-V2 egy valóban kiváló modell! Jelentősen hatékonyabb, mint az kategóriájába tartozó többi modell, remek eredményeket ér el, és a kutatási publikáció részletei azt mutatják, hogy a DeepSeek olyan csapatot épített, amely mélyen érti az ambiciózus modellek tanításához szükséges infrastruktúrát. Bár Kína különböző számítási kapacitást érintő exportkorlátozásokkal küzd, az ilyen tanulmányok rávilágítanak arra, hogy az ország számos tehetséges csapatnak ad otthont, akik képesek jelentős AI fejlesztésekre és innovációkra.