MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Cohere a nagy modellek kvantálását javító tanítási stratégiákat vizsgálja

A Cohere AI vállalat kutatói elemzést tettek közzé arról, hogyan befolyásolják az AI-rendszerek tanítása során hozott döntések a kész modellek kvantálhatóságát. A kvantálás az a folyamat, amikor a neurális háló eredetileg 32 bites súlyait 16 vagy 8 bites egészekké zsugorítják – ez jelentősen csökkenti a modell memóriaigényét és késleltetését, így a kisebb pontosság segíti a tanított modellek gyakorlati alkalmazását. A Cohere megállapította, hogy „lehetséges olyan kvantálásbarát tanítási receptet optimalizálni, amely elnyomja a kirívóan nagy aktivációs értékeket” – írják. „Ez olyan aktivációs- és súlyeloszlást eredményez, amely alkalmasabb az egyszerű INT8 kvantálásra, és nem teszi szükségessé a bonyolult és rugalmatlan vegyes pontosságú számításokat. Eredményeink azt mutatják, hogy az előtanítási szakaszban hozott döntések révén bevezethetünk egyszerű INT8 kvantálást, aminek elhanyagolható hatása van a teljesítményre.” Megközelítésüket 410 milliótól 52 milliárd paraméterig terjedő modelleken igazolták.
Miért fontos?

A kvantálás finomítása az „AI iparosításának” része: a kézműves tudást megismételhető receptekké alakítják, amelyek olcsóbbá és elérhetőbbé teszik a nagy teljesítményű rendszereket. ---

Eredeti forrás megtekintése (angol) →