AI OKTÁTÁS
Az Essential AI hatalmas, 24 billió tokenből álló adatkészletet adott ki modelltanításhoz
Az Essential AI, a Transformer architektúra néhány feltalálója által alapított startup, kiadta az Essential-Web v1.0-t, egy 24 billió tokenből álló adatkészletet AI rendszerek tanításához. Összehasonlításképpen: az Alibaba Qwen modelljei 35 billió, a Meta Llama 3 modellje pedig 15 billió tokent használt. Az adatkészlet dokumentumszintű metaadatokat is tartalmaz, például címkéket a témakörre, a weboldal típusára, a tartalom összetettségére és a dokumentum minőségére vonatkozóan. Ezek a metaadatok lehetővé teszik a szakemberek számára, hogy gyorsan – például egy kémia-fókuszú adatkészletet – egyszerű SQL-szerű szűrőkkel kevesebb mint 15 perc alatt összeállítsanak.
- 24 billió tokennyi rendszerezett webes adatot tartalmaz
- Gazdag dokumentumszintű metaadatokat tartalmaz a könnyű válogatás és szűrés érdekében
- 90 000 inference óra alatt készült el AMD MI3100x chipeken
- Hatékony EAI-Distill-0.5b osztályozót használt a dokumentumok feldolgozásához
- A STEM és orvosi területekre válogatott részhalmazok felülmúlják a jelenlegi SOTA benchmarkokat
Miért fontos?
Az Essential-Web V1.0-hoz hasonló adatkészletek demokratizáló erőt képviselnek az AI fejlesztésben, mivel „megemelik a lécet” a nagyméretű adatkészletek minőségében, megkönnyítve ezzel egy szélesebb kör számára az ipari léptékű modellek tanításával való kísérletezést.