Az Essential AI hatalmas, 24 billió tokenből álló adatkészletet adott ki modelltanításhoz

AI OKTÁTÁS

Az Essential AI hatalmas, 24 billió tokenből álló adatkészletet adott ki modelltanításhoz

2025. június 23. · MI Történik? · 1 perc olvasás

Az Essential AI, a Transformer architektúra néhány feltalálója által alapított startup, kiadta az Essential-Web v1.0-t, egy 24 billió tokenből álló adatkészletet AI rendszerek tanításához. Összehasonlításképpen: az Alibaba Qwen modelljei 35 billió, a Meta Llama 3 modellje pedig 15 billió tokent használt. Az adatkészlet dokumentumszintű metaadatokat is tartalmaz, például címkéket a témakörre, a weboldal típusára, a tartalom összetettségére és a dokumentum minőségére vonatkozóan. Ezek a metaadatok lehetővé teszik a szakemberek számára, hogy gyorsan – például egy kémia-fókuszú adatkészletet – egyszerű SQL-szerű szűrőkkel kevesebb mint 15 perc alatt összeállítsanak.

24 billió tokennyi rendszerezett webes adatot tartalmaz
Gazdag dokumentumszintű metaadatokat tartalmaz a könnyű válogatás és szűrés érdekében
90 000 inference óra alatt készült el AMD MI3100x chipeken
Hatékony EAI-Distill-0.5b osztályozót használt a dokumentumok feldolgozásához
A STEM és orvosi területekre válogatott részhalmazok felülmúlják a jelenlegi SOTA benchmarkokat

Miért fontos?

Az Essential-Web V1.0-hoz hasonló adatkészletek demokratizáló erőt képviselnek az AI fejlesztésben, mivel „megemelik a lécet” a nagyméretű adatkészletek minőségében, megkönnyítve ezzel egy szélesebb kör számára az ipari léptékű modellek tanításával való kísérletezést.

Eredeti forrás megtekintése (angol) →