MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Prime Intellect globálisan elosztott megerősítéses tanulást mutatott be egy 32B paraméteres modellen

Az elosztott tanítás lényege, hogy a világ különböző pontjain található számítógépeket összekapcsolják egyetlen AI-rendszer betanításához. Ez a téma gyakran szerepel itt az Import AI-ban, mert ha működik, megváltoztatja a számítási kapacitás (compute) politikai gazdaságtanát – ahelyett, hogy az AI-rendszereket egyetlen, hatalmas tőkével rendelkező vállalat tanítaná, azokat számítógépeiket egyesítő közösségek is létrehozhatnák. Az INTELLECT-2 az Alibaba QwQ-32B modelljén alapul, amelyen a Prime Intellect megerősítéses tanulást (RL) végzett, nagyrészt a DeepSeek R-1 technológiáját követve (GRPO-alapú tanítás és ellenőrizhető jutalmak). A modellt további matematikai és kódolási adatokon tanították, és kismértékű javulást tapasztaltak a benchmarkokon (AIME24 és LiveCodeBench). Érdemes azonban megjegyezni, hogy a javulás viszonylag csekély, és beleférhet a tanítási folyamatok szokásos zajába, így nem egyértelmű a jelentősége. Hagyományosan a nagy modellek tanításához használt számítási kapacitás nagy része az előtanításra (pre-training) megy el. Most, az érvelő (reasoning) modellekkel a kapacitás jelentős része az interferenciára (inference) irányul – minták generálására a modellből, amelyeken aztán tovább tanítják. A Prime Intellect is megfigyelte ezt a trendet: „Az INTELLECT-2 esetében a tanítás és az következtetés (inference) számítási aránya körülbelül 1:4 volt. Arra számítunk, hogy ez az arány még inkább az következtetés felé tolódik el. Ez a trend megnyitja az utat a több százmilliárd paraméteres modellek globálisan elosztott, heterogén számítási erőforrásokon történő tanítása előtt.”
Miért fontos?

Bár kétlem, hogy sokan fogják az INTELLECT-2-t modellként használni, értékes bizonyítékként szolgál arra, hogy legalábbis lehetséges az érvelő típusú modellek elosztott módon történő tanítása. Csak pár évvel ezelőtt kaptunk először bizonyítékot arra, hogy a normál modellek elosztott tanítása lehetséges 1 milliárd paraméteres skálán. Az a tény, hogy ma már képesek vagyunk meglévő 32 milliárdos modellek RL-finomhangolására, a technológia érettségét és a terület iránti nagy érdeklődést jelzi. ---

Eredeti forrás megtekintése (angol) →