A Nous Research decentralizált, 40 milliárd paraméteres modell előtanítását tervezi

2025. május 19. · MI Történik? · 1 perc olvasás

Az elosztott AI-tanítást kutató startupok egyike, a Nous Research bejelentette terveit egy 40 milliárd paraméteres modell elosztott módon történő előtanítására 20 billió (T) token felhasználásával. A startup ezt a Psyche nevű nyílt infrastruktúrán keresztül valósítja meg, amely „demokratizálja az AI-fejlesztést a tanítás decentralizálásával a nem megfelelően kihasznált hardvereken”. Ha sikeres lesz, ez a tanítási folyamat eredményezi majd a legnagyobb nyilvánosan közzétett modellt, amelyet elosztott módon tanítottak. A Psyche a DisTrO-ra és a DeMo-ra építve több nagyságrenddel csökkenti az adatátviteli igényt, praktikussá téve az elosztott tanítást. A koordináció a Solana blockchain-en történik, biztosítva a hibatűrő és cenzúratűrő hálózatot. A Psyche-n futó első projektünk egy 40 milliárd paraméteres modellt tanít elő Multi-head Latent Attention (MLA) architektúrával 20 billió tokenen, amelynek a Consilience nevet adtuk. A tanítási adatokhoz kombináltuk a FineWeb-et (14T), a FineWeb-2-t bizonyos ritkább nyelvek eltávolításával (4T), és a The Stack V2-t (~0,2T, 1 billió tokenre felszorozva). A Consilience-szel az a célunk, hogy egy valódi „alap” modellt hozzunk létre – olyat, amely az emberiség kreatív teljesítményének egészét képviseli, és nem csupán a benchmark-eredmények maximalizálására törekszik.

Egy 40 milliárd paraméteres, Consilience nevű modell előtanítását célozza.
A tanítási készlet 20 billió tokent tartalmaz a FineWeb, FineWeb-2 és The Stack V2 forrásokból.
Multi-head Latent Attention (MLA) architektúrát használ.
A Psyche infrastruktúrára épül, amely a klienseket a Solana blockchain-en keresztül koordinálja.
Célja, hogy reprezentatív „alap” modell legyen, nem pedig kifejezetten benchmarkokra optimalizált.

Miért fontos?

Nyitott kérdés, hogy mekkora és mennyire elosztott lesz a Psyche-t tanító számítógépek halmaza – ha például csak négy nagy számítási „tömbből” (blob) áll majd, akkor érdekes technológiai bemutató lehet, de nem mozdítja el az AI-számítási kapacitás politikai gazdaságtanát. Ha viszont például húsz különböző egységből áll össze, az már rendkívül jelentőségteljes lenne. ---

Eredeti forrás megtekintése (angol) →