AI ADATKÉSZLETEK
Megjelent a Common Corpus, a valaha volt legnagyobb közkincs adatbázis LLM-ek tanításához
A Pleias kutatói közzétették a Common Corpus-t, amely a „legnagyobb LLM-ek tanítására szánt, közkincsnek minősülő adatbázis”. Az adatkészlet mintegy 500 milliárd szóból áll, amelyeket „számos különféle kulturális örökségvédelmi kezdeményezésből” gyűjtöttek össze. Ez magában foglal egy 21 millió digitalizált újságból álló gyűjteményt, valamint több tízmilliárd szót francia, német, spanyol, holland és olasz forrásokból, továbbá egyéb „alacsony erőforrás-igényű nyelvekből” származó adatokat.
- A korpusz körülbelül 500 milliárd szót tartalmaz (becslések szerint 600-700 milliárd token).
- Az adatkészlet 21 millió digitalizált újságot foglal magában.
- Jelentős mennyiségű adatot tartalmaz francia, német, spanyol, holland és olasz forrásokból.
- A projekt célja, hogy kiváló minőségű, jogilag biztonságos alternatívát nyújtson a nyelvi modellek tanításához.
Miért fontos?
Az 500 milliárd szavas korpusz nagyjából 600-700 milliárd tokennek felel meg. Összehasonlításképpen, az olyan kisebb open-source modelleket, mint a LLaMa2, 2 billió tokenen tanították, a nagyobb léptékű zárt forráskódú modelleket pedig ennek többszörösén. Ez azt jelenti, hogy bár a Common Corpus dicséretes kezdeményezés, egyelőre nem rendelkezik azzal a mérettel, amely lehetővé tenné a nyelvi modellek kizárólag ezen az adatkészleten történő tanítását.