AI ADATHALMAZOK
A DataComp benchmark az algoritmusokról az adatkészletek kurálására helyezi a hangsúlyt
Kutatók egy csoportja közzétette a DataCompot, amely egy adatkészlet és egy új kihívás ötvözete. Célja, hogy segítse az AI-kutatókat annak megértésében, hogyan befolyásolják a különböző adatösszetételek az AI-rendszerek minőségét. A DataComp egy olyan „részvételi benchmark”, ahol a tanító kód rögzített, a kutatók pedig új tanító adatsorok javaslásával innoválnak. A projekt célja egy kísérleti terep biztosítása az adatkészlet-központú kísérletekhez, amely a Common Crawlból származó 12,8 milliárd kép-szöveg páron alapul. A DataComp megfordítja a gépi tanulás hagyományos benchmarking paradigmáját, ahol az adatkészlet fix, és a kutatói közösség új tanító algoritmusokat javasol. Ehelyett rögzítik a tanító kódot, a modellt és a számítási keretet, így a résztvevők az új tanító adatsorok kidolgozásával versenyeznek.
- DataComp meta-benchmark rögzített tanító kóddal és modellparaméterekkel
- CommonPool: 12,8 milliárd kép-szöveg pár a Common Crawlból szűréshez és optimalizáláshoz
- A skálázási trendek vizsgálata kifejezetten az adatkészlet-tervezés szempontjából
- Háromszáz alapvonal-kísérlet, amely betekintést nyújt az adatkurálásba
- DataComp-1B: Egy új, csúcstechnológiás multimodális adatkészlet a CommonPoolból szűrve
Miért fontos?
Ha az AI olyan, mint a kémia, végezzünk kontrollált kísérleteket: A gépi tanulás skálázási törvényeinek (scaling laws) köszönhetően a kutatók elkezdték az AI-rendszereket az adatok, a számítási kapacitás és a hálózati komplexitás különböző keverékeivel tanítani. A DataComp egy lépéssel továbbmegy, és arra kéri a kutatókat, hogy ne csak az adatmennyiséget finomítsák, hanem gondolják át alaposan az adatkészlet tartalmát és összetettségét is.