A Prime Intellect globálisan elosztott megerősítéses tanulást mutatott be egy 32B paraméteres modellen

2025. május 19. · MI Történik? · 2 perc olvasás

Az elosztott tanítás lényege, hogy a világ különböző pontjain található számítógépeket összekapcsolják egyetlen AI-rendszer betanításához. Ez a téma gyakran szerepel itt az Import AI-ban, mert ha működik, megváltoztatja a számítási kapacitás (compute) politikai gazdaságtanát – ahelyett, hogy az AI-rendszereket egyetlen, hatalmas tőkével rendelkező vállalat tanítaná, azokat számítógépeiket egyesítő közösségek is létrehozhatnák. Az INTELLECT-2 az Alibaba QwQ-32B modelljén alapul, amelyen a Prime Intellect megerősítéses tanulást (RL) végzett, nagyrészt a DeepSeek R-1 technológiáját követve (GRPO-alapú tanítás és ellenőrizhető jutalmak). A modellt további matematikai és kódolási adatokon tanították, és kismértékű javulást tapasztaltak a benchmarkokon (AIME24 és LiveCodeBench). Érdemes azonban megjegyezni, hogy a javulás viszonylag csekély, és beleférhet a tanítási folyamatok szokásos zajába, így nem egyértelmű a jelentősége. Hagyományosan a nagy modellek tanításához használt számítási kapacitás nagy része az előtanításra (pre-training) megy el. Most, az érvelő (reasoning) modellekkel a kapacitás jelentős része az interferenciára (inference) irányul – minták generálására a modellből, amelyeken aztán tovább tanítják. A Prime Intellect is megfigyelte ezt a trendet: „Az INTELLECT-2 esetében a tanítás és az következtetés (inference) számítási aránya körülbelül 1:4 volt. Arra számítunk, hogy ez az arány még inkább az következtetés felé tolódik el. Ez a trend megnyitja az utat a több százmilliárd paraméteres modellek globálisan elosztott, heterogén számítási erőforrásokon történő tanítása előtt.”

Az INTELLECT-2 az Alibaba QwQ-32B modelljén alapul.
A tanítás GRPO-alapú megerősítéses tanulást és ellenőrizhető jutalmakat alkalmazott.
A tanítás és az következtetés számítási aránya körülbelül 1:4 volt.
Kismértékű benchmark javulást mértek az AIME24-en és a LiveCodeBench-en.
Tanulmányként (proof-of-concept) szolgál az érvelő modellek globálisan decentralizált tanításához.

Miért fontos?

Bár kétlem, hogy sokan fogják az INTELLECT-2-t modellként használni, értékes bizonyítékként szolgál arra, hogy legalábbis lehetséges az érvelő típusú modellek elosztott módon történő tanítása. Csak pár évvel ezelőtt kaptunk először bizonyítékot arra, hogy a normál modellek elosztott tanítása lehetséges 1 milliárd paraméteres skálán. Az a tény, hogy ma már képesek vagyunk meglévő 32 milliárdos modellek RL-finomhangolására, a technológia érettségét és a terület iránti nagy érdeklődést jelzi. ---

Eredeti forrás megtekintése (angol) →