DEEPSEEK
A DeepSeek nyílt forráskódú érvelő modellje aranyérmes teljesítményt nyújtott a 2025-ös IMO-n
A DeepSeek kiadta a DeepSeek-Math-V2-t, egy nyílt forráskódú MoE modellt, amely aranyérmes szintet ért el a 2025-ös Nemzetközi Matematikai Diákolimpián (IMO), ezzel demokratizálva a korábban csak zárt rendszerekben elérhető „kutatói szintű” matematikai érvelést.
- A modell 118/120 pontot ért el a 2024-es Putnam-versenyen (megverve a legjobb emberi eredményt), és a 2025-ös IMO 6 feladatából 5-öt megoldott, elérve az aranyérmes szintet.
- Az IMO ProofBench teszten 61,9%-ot ért el, majdnem utolérve a Google speciális Gemini Deep Think modelljét, és messze lekörözve a mindössze 20%-ot elérő GPT-5-öt.
- A Math-V2 egy generátor-ellenőrző rendszert használ, ahol az egyik modell bizonyítást javasol, a másik pedig kritizálja azt – ahelyett, hogy csak a végeredményt díjazná.
- Az ellenőrző konfidencia-pontszámokat rendel a lépésekhez, kényszerítve a generátort a gyenge logika finomítására, biztosítva az érvelés lépésről lépésre történő önhibajavítását.
Miért fontos?
Egy olyan nyílt forráskódú modell közzétételével, amely felveszi a versenyt a Google belső fejlesztéseivel, a DeepSeek megtörte a csúcsszintű matematikai érvelés monopóliumát. Ezáltal a közösség kezébe adott egy tervrajzot olyan ágensek építéséhez, amelyek képesek saját gondolatmenetük hibáinak javítására. Ez sorsfordító lehet az olyan területeken, mint a mérnöki tudományok, ahol a hibák költségesek. ---