A Cerebras hét nyílt GPT-3 modellt adott ki, amelyeket saját hardveren tanítottak
Az AI-chipgyártó Cerebras hét GPT-3 modellből álló családot adott ki, 111 milliótól 13 milliárd paraméterig terjedő méretben. Ezeket a modelleket körülbelül négyszer több adaton tanították, mint az eredeti GPT-3 modellt, kihasználva a „Chinchilla” felismerést, miszerint a nyelvi modellek sokkal több adaton is taníthatók a jobb teljesítmény érdekében. A Cerebras-GPT gyorsabb tanítási idővel, alacsonyabb költségekkel rendelkezik, és kevesebb energiát fogyaszt, mint bármely eddig nyilvánosan elérhető modell.
- A modellméretek 111 milliótól 13 milliárd paraméterig terjednek.
- A nyilvános Pile adatkészleten tanítva, a Chinchilla skálázási törvények alkalmazásával.
- A súlyok és ellenőrzőpontok elérhetők a Hugging Face-en és a GitHubon Apache 2.0 licenc alatt.
- Új, csúcstechnológiát jelentő (state-of-the-art) teljesítményt állított fel a megfelelő modellméretek között 8-ból 5 alkalmazott feladatban.
- A modelleket úgy tervezték, hogy kiegészítsék az Eleuther AI Pythia családját.
Miért fontos?
Mivel az AI jelentős gazdasági hatású technológiává vált, a vállalatok elkezdték lemásolni a zárt modelleket, és főként marketingeszközként közzétenni őket. Ebben az esetben a Cerebras modelljei részben reklámként szolgálnak a Cerebras saját AI-tanító chipjeihez (hiszen ezeken tanították őket). Ez a dinamika érdekes – jelentős előnyökre számíthatunk a nyílt forráskódú közösség számára a kereskedelmi verseny következtében, bár ha kiderül, hogy biztonsági aggályok merülnek fel ezekkel a modellekkel kapcsolatban, a problémák a nyílt forráskódú kiadás és elterjedés révén hatványozódhatnak.