A DataComp benchmark az algoritmusokról az adatkészletek kurálására helyezi a hangsúlyt

AI ADATHALMAZOK

A DataComp benchmark az algoritmusokról az adatkészletek kurálására helyezi a hangsúlyt

2023. május 8. · MI Történik? · 1 perc olvasás

Kutatók egy csoportja közzétette a DataCompot, amely egy adatkészlet és egy új kihívás ötvözete. Célja, hogy segítse az AI-kutatókat annak megértésében, hogyan befolyásolják a különböző adatösszetételek az AI-rendszerek minőségét. A DataComp egy olyan „részvételi benchmark”, ahol a tanító kód rögzített, a kutatók pedig új tanító adatsorok javaslásával innoválnak. A projekt célja egy kísérleti terep biztosítása az adatkészlet-központú kísérletekhez, amely a Common Crawlból származó 12,8 milliárd kép-szöveg páron alapul. A DataComp megfordítja a gépi tanulás hagyományos benchmarking paradigmáját, ahol az adatkészlet fix, és a kutatói közösség új tanító algoritmusokat javasol. Ehelyett rögzítik a tanító kódot, a modellt és a számítási keretet, így a résztvevők az új tanító adatsorok kidolgozásával versenyeznek.

DataComp meta-benchmark rögzített tanító kóddal és modellparaméterekkel
CommonPool: 12,8 milliárd kép-szöveg pár a Common Crawlból szűréshez és optimalizáláshoz
A skálázási trendek vizsgálata kifejezetten az adatkészlet-tervezés szempontjából
Háromszáz alapvonal-kísérlet, amely betekintést nyújt az adatkurálásba
DataComp-1B: Egy új, csúcstechnológiás multimodális adatkészlet a CommonPoolból szűrve

Miért fontos?

Ha az AI olyan, mint a kémia, végezzünk kontrollált kísérleteket: A gépi tanulás skálázási törvényeinek (scaling laws) köszönhetően a kutatók elkezdték az AI-rendszereket az adatok, a számítási kapacitás és a hálózati komplexitás különböző keverékeivel tanítani. A DataComp egy lépéssel továbbmegy, és arra kéri a kutatókat, hogy ne csak az adatmennyiséget finomítsák, hanem gondolják át alaposan az adatkészlet tartalmát és összetettségét is.

Eredeti forrás megtekintése (angol) →