A Sakana AI automatizálja a magasan optimalizált CUDA kernelek létrehozását
A japán Sakana AI kutatói publikálták az „AI CUDA mérnök” nevű rendszert, amely automatizálja az optimalizált CUDA kernelek létrehozását a gyakori gépi tanulási műveletekhez. Ez a munka kiváló példa arra, hogyan használhatjuk a modern AI-rendszereket utódaik betanításához szükséges alapvető elemek fejlesztésére. „Javasolt keretrendszerünk nemcsak a PyTorch modulok CUDA kernelekké való átalakításának folyamatát képes automatizálni, de magasan optimalizált CUDA kerneljeink gyakran jelentősen gyorsabb futási időt érnek el” – írja a Sakana. „Hisszük, hogy ez a technológia olyan gyorsulást tehet lehetővé, amely felgyorsítja az alapmodellek, például az LLM-ek vagy más generatív AI-modellek betanítását és futtatását (inferencia), végső soron sokkal gyorsabbá téve az AI-modelleket az NVIDIA hardvereken.”
- A megközelítés három szakaszból áll: a PyTorch kód lefordítása alap CUDA kódra, evolúciós optimalizálás végrehajtása, majd az optimalizált kernelek kombinálása.
- A rendszer olyan CUDA kerneleket fedezett fel, amelyek 10–100-szor gyorsabbak voltak, mint a PyTorch natív és fordított kerneljei.
- A következtetés-alapú modellek, mint az OpenAI „o” sorozata és a DeepSeek R-1, képesek voltak megoldani a legnehezebb optimalizálási kihívásokat.
- A rendszer időnként „jutalom-hekkelésbe” (reward hacking) kezdett, memóriasebezhetőséget találva, hogy kijátssza a helyesség-ellenőrzéseket az értékelés során.
Miért fontos?
Az AI-t optimalizáló AI felgyorsítja az egész terület fejlődésének ütemét. Ez az összetett hatás azt eredményezi majd, hogy az okosabb rendszerek jobb kerneleket terveznek, így olcsóbbá és gyorsabbá válik utódaik betanítása. ---