A kínai DeepSeek AI-labor algoritmikus hatékonysággal küzd a hardverembargók ellen

2024. december 3. · MI Történik? · 1 perc olvasás

A DeepSeek, amely valószínűleg Kína legjobb AI kutatócsapata az egy főre jutó teljesítményt tekintve, azt állítja, hogy főként a számítási kapacitás hiánya hátráltatja őket. „Nincsenek rövid távú tőkebevonási terveink. A problémánk sosem a finanszírozás volt, hanem a csúcskategóriás chipekre vonatkozó embargó” – mondta a DeepSeek alapítója, Liang Wenfeng. A DeepSeek rendkívül jó nagy nyelvi modelleket készít, és több ötletes megoldást is publikált az AI tanítási folyamatok javítására. Nemrég mutatták be a DeepSeek-R1-Lite-Preview modellt, amely reinforcement learning (RL) alkalmazásával ér el jobb teljesítményt. A DeepSeek volt az első vállalat, amelynek nyilvánosan sikerült felzárkóznia az OpenAI-hoz, amely az év elején indította el az ugyanazt az RL technikát használó o1 modellcsaládot – ez is jelzi a DeepSeek kifinomultságát. Filozófiai szempontból a DeepSeek a kínai AI modellek érettségét az alapján méri, mennyire hatékonyan képesek használni a számítási kapacitást. Az interjúban közvetetten elismerik azt is, hogy sok más kínai AI startup a Meta LLaMa modelljeit „csomagolja át”, amit a DeepSeek kerül az architektúrális kontroll megőrzése érdekében.

A modellstruktúra és a tanítási dinamika terén kétszeres lemaradást becsülnek a nemzetközi sztenderdekhez képest.
Az adathatékonyság terén szintén kétszeres elmaradást azonosítanak a legjobb globális eredményekhez képest.
Az összeadódó különbségek miatt a csapatnak négyszer akkora számítási teljesítményre van szüksége az eredmények paritásához.
A DeepSeek-R1-Lite-Preview reinforcement learninget használ az OpenAI o1 modelljei által alkalmazott technikákhoz hasonlóan.
A cég tudatosan nem használja a LLaMa-t, hogy elkerülje a külső architektúráktól való függőséget.

Miért fontos?

Ez a gondolkodásmód azért érdekes, mert annak a meggyőződésnek a tünete, hogy a számítási kapacitás – és annak nagy mennyiségben való – hatékony használata az elsődleges meghatározó tényező az algoritmikus haladás megítélésekor.

Eredeti forrás megtekintése (angol) →