MODELL MEGJELENÉS
A DeepSeek-R1 megerősítéses tanulást használ a csúcskategóriás logikai teljesítmény eléréséhez
A kínai DeepSeek csapata kifejlesztette és közzétette a DeepSeek-R1 modellt, amely megerősítéses tanulást (reinforcement learning) használ egy olyan AI rendszer betanításához, amely képes a „test-time compute” (válaszadási idő alatti számítás) használatára. Az R1 jelentős, mivel nagyjából eléri az OpenAI o1 modelljének szintjét a különféle logikai feladatokban, és megkérdőjelezi azt a nézetet, miszerint a nyugati AI cégek jelentős előnyben lennének a kínaiakkal szemben. Ami talán a legfontosabb, a tanulmányban elrejtve egy fontos felismerés olvasható: szinte bármilyen LLM logikai modellé alakítható, ha a megfelelő adatkeverékkel finomhangolják őket – jelen esetben 800 ezer mintával, amelyek kérdéseket és válaszokat, valamint a modell által írt gondolatmeneteket (chain of thought) tartalmazzák.
- Az alapmodell a DeepSeek-V3 volt, egy kb. 700 milliárd paraméteres Mixture-of-Experts (MoE) modell.
- A folyamat egy kis mennyiségű, hosszú gondolatmeneteket (CoT) tartalmazó adaton végzett finomhangolással indul egy kezdeti RL-ágens létrehozásához.
- Ezután nagyskálájú megerősítéses tanulást alkalmaznak a logikai képességek fokozására.
- A modell bizonyította, hogy képes hatékonyan használni a „test-time compute”-ot komplex logikai kihívások megoldására.