DEEPSEEK
A DeepSeek kutatása a következő generációs AI modellek hatékonyságát vetíti előre
A DeepSeek új kutatást tett közzé, amely a neurális hálózatok felépítésének módosítását javasolja a modellköltségek és a stabilitás áttörése érdekében. Ez előrevetítheti a következő nagy frissítés hatékonyságnövekedését.
- A tanulmány bemutatja az mHC technikát, amely stabilizálja és javítja az AI oktatását nagy léptékben, minimális extra számítási költség mellett.
- Liang Wenfeng CEO társszerzője volt a tanulmánynak, és személyesen töltötte fel az arXiv-ra, jelezve folyamatos szakmai jelenlétét a startup kutatásaiban.
- A 3B, 9B és 27B paraméteres modelleken végzett tesztek jobb eredményeket mutattak a meglévő módszereknél, különösen a logikai feladatok (reasoning) terén.
- Az időzítés összhangban van a korábbi tanulmányokkal, amelyek a DeepSeek lépéseit jelezték előre; hasonló kutatások jelentek meg az R1 és a V3 kiadása előtt is.
Miért fontos?
A tavalyi DeepSeek-pillanat nagy port kavart, amikor az R1 a csúcsmodellek teljesítményét közelítette meg a költségek töredékéért. Ez a tanulmány arra utal, hogy még nem végeztek a hatékonyság növelésével. A fejlett AI chipekhez való hozzáférés és az ilyen típusú kutatási áttörések révén a kínai modellek 2026-ban minden eddiginél versenyképesebbek lesznek. ---