MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Essential AI hatalmas, 24 billió tokenből álló adatkészletet adott ki modelltanításhoz

Az Essential AI, a Transformer architektúra néhány feltalálója által alapított startup, kiadta az Essential-Web v1.0-t, egy 24 billió tokenből álló adatkészletet AI rendszerek tanításához. Összehasonlításképpen: az Alibaba Qwen modelljei 35 billió, a Meta Llama 3 modellje pedig 15 billió tokent használt. Az adatkészlet dokumentumszintű metaadatokat is tartalmaz, például címkéket a témakörre, a weboldal típusára, a tartalom összetettségére és a dokumentum minőségére vonatkozóan. Ezek a metaadatok lehetővé teszik a szakemberek számára, hogy gyorsan – például egy kémia-fókuszú adatkészletet – egyszerű SQL-szerű szűrőkkel kevesebb mint 15 perc alatt összeállítsanak.
Miért fontos?

Az Essential-Web V1.0-hoz hasonló adatkészletek demokratizáló erőt képviselnek az AI fejlesztésben, mivel „megemelik a lécet” a nagyméretű adatkészletek minőségében, megkönnyítve ezzel egy szélesebb kör számára az ipari léptékű modellek tanításával való kísérletezést.

Eredeti forrás megtekintése (angol) →