A Cohere a nagy modellek kvantálását javító tanítási stratégiákat vizsgálja

AI OKTÁTÁS

A Cohere a nagy modellek kvantálását javító tanítási stratégiákat vizsgálja

2023. június 12. · MI Történik? · 1 perc olvasás

A Cohere AI vállalat kutatói elemzést tettek közzé arról, hogyan befolyásolják az AI-rendszerek tanítása során hozott döntések a kész modellek kvantálhatóságát. A kvantálás az a folyamat, amikor a neurális háló eredetileg 32 bites súlyait 16 vagy 8 bites egészekké zsugorítják – ez jelentősen csökkenti a modell memóriaigényét és késleltetését, így a kisebb pontosság segíti a tanított modellek gyakorlati alkalmazását. A Cohere megállapította, hogy „lehetséges olyan kvantálásbarát tanítási receptet optimalizálni, amely elnyomja a kirívóan nagy aktivációs értékeket” – írják. „Ez olyan aktivációs- és súlyeloszlást eredményez, amely alkalmasabb az egyszerű INT8 kvantálásra, és nem teszi szükségessé a bonyolult és rugalmatlan vegyes pontosságú számításokat. Eredményeink azt mutatják, hogy az előtanítási szakaszban hozott döntések révén bevezethetünk egyszerű INT8 kvantálást, aminek elhanyagolható hatása van a teljesítményre.” Megközelítésüket 410 milliótól 52 milliárd paraméterig terjedő modelleken igazolták.

Az előtanítás során alkalmazott magasabb súlycsökkenés (weight decay) javítja az utólagos kvantálást.
A dropout magasabb értéke a kvantálási teljesítmény gyorsabb romlásához vezet.
A gradiensek levágása (gradient clipping) pozitív hatással van a kvantálási robusztusságra.
Az ellenőrzést 410M és 52B paraméter közötti modelleken végezték.
A fókusz az egyszerű INT8 kvantálás lehetővé tételén van komplex vegyes pontosságú eljárások nélkül.

Miért fontos?

A kvantálás finomítása az „AI iparosításának” része: a kézműves tudást megismételhető receptekké alakítják, amelyek olcsóbbá és elérhetőbbé teszik a nagy teljesítményű rendszereket. ---

Eredeti forrás megtekintése (angol) →