MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Meta felfedezi az új Kunlun ajánlórendszer skálázási törvényeit

A Kunlun egy újabb jó példa arra, hogy hogyan néz ki az ipari AI… A Facebook részleteket tett közzé a Kunlunról, egy ajánlórendszerről, amely hatékonyabb, mint a hirdetési óriás által korábban fejlesztettek. Ezzel együtt a Facebook egy előre jelezhető „skálázási törvényt” is megfejtett a Kunlun modellek számára, megkönnyítve a vállalat számára, hogy eddig példátlan számítási teljesítményt fektessen ezekbe a modellekbe, kiszámíthatóbb megtérülés mellett. Ez nagy dolog, mert az ajánlórendszereket olyan cégek használják, mint a Facebook a hirdetésekhez, ami a) a bevételük túlnyomó részét képezi, és b) óriási hatással van a milliárdnyi Facebook- és más közösségi platform-felhasználó vásárlási és figyelmi szokásaira. Az ajánlórendszerek eltérnek az LLM-ektől: Az LLM-ek, mint a Claude és ChatGPT esetében már egy ideje vannak skálázási törvények, de nehezebb volt ugyanezen skálázási törvényeket kifejleszteni az ajánlómodellek számára. Ennek oka, hogy az ajánlómodellek egészen másképp működnek, mint az LLM-ek, így a skálázási modellek építése itt „nyílt kihívást jelent azoknak a rendszereknek, amelyek egyidejűleg modellezik a szekvenciális felhasználói viselkedéseket és a nem-szekvenciális kontextusjellemzőket”. Az ajánlómodellek általában sokkal kevésbé hatékonyak, mint az LLM-ek: Az ajánlórendszerek csak 3-15%-os Model FLOPs Utilization (MFU) értéket érnek el, szemben az LLM-ek 40-60%-ával, a heterogén jellemzőterek, az ebből adódó kis beágyazási dimenziók, az irreguláris tenzorformák és a memória-korlátos műveletek miatt. Kunlun: A tanulmány nagy része a Kunlun tervezésének tárgyalását tartalmazza, amely alapvetően egy jól optimalizált ajánlórendszer, jobb MFU értékkel. A Kunlun tartalmaz egy Kunlun Transformer Blockot a kontextustudatos szekvencia-modellezéshez GDPA-val bővített személyre szabott feed-forward hálózatokon és multi-head önszelekción keresztül, valamint egy Kunlun Interaction Blockot „a bidirekcionális információcsere érdekében személyre szabott súlygenerálás, hierarchikus szekvencia-összefoglalás és globális jellemző-interakció révén”. Számos egyéb trükköt is használt a Facebook a Kunlun építéséhez, a további részletekért elolvashatja a tanulmányt. Végül a Kunlun az MFU-t 17%-ról 37%-ra javítja NVIDIA B200 GPU-kon.
Miért fontos?

Miért fontos ez – skálázási törvény a pénzért: A tanulmány kulcsfontosságú felismerése az, hogy a Kunlun modellek kiszámíthatóan skálázódnak, és olyan hatványfüggvény szerinti skálázási viselkedést mutatnak, mint a nyelvi modellek. Azonban míg az LLM-eknél a skálázási törvényeket jellemzően az alapul szolgáló adathalmaz veszteségének csökkenésén keresztül mérik, itt a normalizált entrópia (NE) az mérőszám. A Facebook kísérleteiben megbízható skálázási törvényeket fedeztek fel mind az NE nyereségeire vonatkozóan, a modell tréningjébe fektetett gigaflopok mennyiségét tekintve, mind pedig a rétegek számával összefüggő NE javulásra vonatkozó skálázási törvényekre. A Kunlun modelleket „a Meta fő hirdetési modelljeiben is bevezették, ami 1,2%-os javulást eredményezett a topline mutatókban”. Amit itt látunk, az a világ társadalmilag legjelentősebb AI rendszereinek optimalizálása – olyanoké, amelyek milliárdnyi szempárt irányítanak különféle termékek és online információk felé –, amely nagyobb mértékű teljesítmény-kiszámíthatósággal párosul; ezen skálázási törvények kifejlesztésével a Meta megkönnyítette, hogy még több számítási teljesítményt költsön ezen modellek további fejlesztésére, azáltal, hogy a befektetéseket kiszámíthatóbbá tette a tőkeberuházás intelligencia-megtérülése szempontjából. ---

Eredeti forrás megtekintése (angol) →