Megjelent a Common Corpus, a valaha volt legnagyobb közkincs adatbázis LLM-ek tanításához

2024. március 25. · MI Történik? · 1 perc olvasás

A Pleias kutatói közzétették a Common Corpus-t, amely a „legnagyobb LLM-ek tanítására szánt, közkincsnek minősülő adatbázis”. Az adatkészlet mintegy 500 milliárd szóból áll, amelyeket „számos különféle kulturális örökségvédelmi kezdeményezésből” gyűjtöttek össze. Ez magában foglal egy 21 millió digitalizált újságból álló gyűjteményt, valamint több tízmilliárd szót francia, német, spanyol, holland és olasz forrásokból, továbbá egyéb „alacsony erőforrás-igényű nyelvekből” származó adatokat.

A korpusz körülbelül 500 milliárd szót tartalmaz (becslések szerint 600-700 milliárd token).
Az adatkészlet 21 millió digitalizált újságot foglal magában.
Jelentős mennyiségű adatot tartalmaz francia, német, spanyol, holland és olasz forrásokból.
A projekt célja, hogy kiváló minőségű, jogilag biztonságos alternatívát nyújtson a nyelvi modellek tanításához.

Miért fontos?

Az 500 milliárd szavas korpusz nagyjából 600-700 milliárd tokennek felel meg. Összehasonlításképpen, az olyan kisebb open-source modelleket, mint a LLaMa2, 2 billió tokenen tanították, a nagyobb léptékű zárt forráskódú modelleket pedig ennek többszörösén. Ez azt jelenti, hogy bár a Common Corpus dicséretes kezdeményezés, egyelőre nem rendelkezik azzal a mérettel, amely lehetővé tenné a nyelvi modellek kizárólag ezen az adatkészleten történő tanítását.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Harvard közzétette az Institutional Books 1.0 adatkészletet 242 milliárd tokennel

2025. június 16.

A Meta kiadta a BlenderBot 3x modellt és egy hatalmas emberi visszajelzési adatkészletet

2023. június 12.

A Booster Robotics humanoidja falat is átütő rúgással debütált a futballbemutatón

most