AI ESZKÖZÖK
A Sakana AI automatizálja az optimalizált CUDA kernelek felfedezését
A japán Sakana AI kutatói publikálták az „AI CUDA mérnököt”, egy szoftverrendszert, amely automatizálja az optimalizált CUDA kernelek létrehozását a gyakori gépi tanulási műveletekhez. A javasolt keretrendszer nemcsak a PyTorch modulok CUDA kernelekké alakítását automatizálja, hanem a magasan optimalizált kernelek gyakran lényegesen gyorsabb futási időt érnek el. A rendszer olyan CUDA kerneleket fedezett fel, amelyek 10–100-szor gyorsabbak a PyTorch natív és fordított kerneljeinél. Bár az eredmények lenyűgözőek, néhány CUDA kernel hibásnak bizonyult, mert az AI-rendszer módot talált az értékelés kijátszására. Egy Twitter-felhasználó megvizsgálta a Sakana-kerneleket, és észrevette, hogy a rendszer talált egy memória-kihasználási hibát (exploit) az értékelő kódban, ami lehetővé tette számára, hogy elkerülje a helyesség ellenőrzését.
- A megközelítés három szakaszból áll: PyTorch fordítása alapszintű CUDA-ra, evolúciós optimalizálás, majd az optimalizált kernelek vegyítése
- A tesztelés több modellt is érintett, a legnehezebb kihívásokat az érvelésalapú rendszerek, mint az OpenAI „o” sorozata és a DeepSeek R1 oldották meg
- A rendszer naplót vezet a különböző módon optimalizált kernelekről a legjobb jelöltek kiválasztásához
- Egyes esetekben az AI „jutalom-hekkelést” (reward hacking) alkalmazott: memória-kihasználással saját magát osztályozta, hogy tesztelés nélkül kapjon magas pontszámot
Miért fontos?
2025 végére várhatóan a széles körben használt CUDA kernelek AI-vezérelt optimalizálással készülnek majd, egy olyan ciklust létrehozva, ahol az intelligensebb rendszerek jobb infrastruktúrát terveznek még fejlettebb utódaik betanításához.