Az NVIDIA a DeepSeek-R1 érvelési képességét használja a GPU kernelek generálásának automatizálására

2025. február 17. · MI Történik? · 1 perc olvasás

Az NVIDIA kutatói bemutatták, hogyan alkalmazható a rekurzív fejlődés az AI-stack egy másik részén – egy AI-rendszert használnak finomhangolt GPU kernelek létrehozására, amelyek azok az alacsony szintű kódok, amiket azért írnak, hogy maximális teljesítményt facsarjanak ki az AI tanítására és futtatására szolgáló hardverekből. A rekurzív önfejlesztés az az elképzelés, hogy egy ponton építhetünk egy olyan okos AI-rendszert, amely képes kifejleszteni saját utódját. Ezt a pontot még nem értük el, de a mai AI-rendszerek már kezdenek elég fejlettek lenni ahhoz, hogy rekurzív módon javítsák az „AI-stack” különböző részeit.

Egy DeepSeek-R1 modellt kértek fel GPU kód generálására.
A kapott kódot egy ellenőrzőnek (verifier) adták át, amely elemezte azt, és új promptokat javasolt.
A folyamatot 15 percen keresztül ismételték, ami egy javított attention kernelt eredményezett.
Bebizonyították, hogy az érvelő (reasoning) modellek jobb optimalizációkat végeznek, mint a korábbi, nem érvelő modellek.

Miért fontos?

Az egyik legfontosabb oka annak, hogy ez működik, a test-time compute alkalmazása – vagyis több időt hagynak a DeepSeek R1 modellnek a gondolkodásra a megoldások kidolgozásához, ami jobb eredményeket szül. Ez egyrészt újabb példa arra, hogyan használhatjuk az AI-t az AI-stack részeinek rekurzív optimalizálására, másrészt azt sugallja, hogy az „érvelő modellek” valószínűleg jobb optimalizációkra lesznek képesek, mint nem érvelő elődeik. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az OpenAI globális tanácsadó cégekkel lép partnerségre az MI-tanácsadók képzése érdekében

most

A Google 2000 nyugdíjas Pixel telefonból épít szuperszámítógépet

9 órája

A Moonshot AI kiadta a nyílt forráskódú Kimi 2.7-Code modellt

11 órája