MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Megjelent a Common Corpus, a valaha volt legnagyobb közkincs adatbázis LLM-ek tanításához

A Pleias kutatói közzétették a Common Corpus-t, amely a „legnagyobb LLM-ek tanítására szánt, közkincsnek minősülő adatbázis”. Az adatkészlet mintegy 500 milliárd szóból áll, amelyeket „számos különféle kulturális örökségvédelmi kezdeményezésből” gyűjtöttek össze. Ez magában foglal egy 21 millió digitalizált újságból álló gyűjteményt, valamint több tízmilliárd szót francia, német, spanyol, holland és olasz forrásokból, továbbá egyéb „alacsony erőforrás-igényű nyelvekből” származó adatokat.

Miért fontos?

Az 500 milliárd szavas korpusz nagyjából 600-700 milliárd tokennek felel meg. Összehasonlításképpen, az olyan kisebb open-source modelleket, mint a LLaMa2, 2 billió tokenen tanították, a nagyobb léptékű zárt forráskódú modelleket pedig ennek többszörösén. Ez azt jelenti, hogy bár a Common Corpus dicséretes kezdeményezés, egyelőre nem rendelkezik azzal a mérettel, amely lehetővé tenné a nyelvi modellek kizárólag ezen az adatkészleten történő tanítását.

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
A Harvard közzétette az Institutional Books 1.0 adatkészletet 242 milliárd tokennel
2025. június 16.
A Meta kiadta a BlenderBot 3x modellt és egy hatalmas emberi visszajelzési adatkészletet
2023. június 12.
A Booster Robotics humanoidja falat is átütő rúgással debütált a futballbemutatón
most