MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A DeepSeek-R1 megerősítéses tanulást használ a csúcskategóriás logikai teljesítmény eléréséhez

A kínai DeepSeek csapata kifejlesztette és közzétette a DeepSeek-R1 modellt, amely megerősítéses tanulást (reinforcement learning) használ egy olyan AI rendszer betanításához, amely képes a „test-time compute” (válaszadási idő alatti számítás) használatára. Az R1 jelentős, mivel nagyjából eléri az OpenAI o1 modelljének szintjét a különféle logikai feladatokban, és megkérdőjelezi azt a nézetet, miszerint a nyugati AI cégek jelentős előnyben lennének a kínaiakkal szemben. Ami talán a legfontosabb, a tanulmányban elrejtve egy fontos felismerés olvasható: szinte bármilyen LLM logikai modellé alakítható, ha a megfelelő adatkeverékkel finomhangolják őket – jelen esetben 800 ezer mintával, amelyek kérdéseket és válaszokat, valamint a modell által írt gondolatmeneteket (chain of thought) tartalmazzák.
Eredeti forrás megtekintése (angol) →