MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A DataComp benchmark az algoritmusokról az adatkészletek kurálására helyezi a hangsúlyt

Kutatók egy csoportja közzétette a DataCompot, amely egy adatkészlet és egy új kihívás ötvözete. Célja, hogy segítse az AI-kutatókat annak megértésében, hogyan befolyásolják a különböző adatösszetételek az AI-rendszerek minőségét. A DataComp egy olyan „részvételi benchmark”, ahol a tanító kód rögzített, a kutatók pedig új tanító adatsorok javaslásával innoválnak. A projekt célja egy kísérleti terep biztosítása az adatkészlet-központú kísérletekhez, amely a Common Crawlból származó 12,8 milliárd kép-szöveg páron alapul. A DataComp megfordítja a gépi tanulás hagyományos benchmarking paradigmáját, ahol az adatkészlet fix, és a kutatói közösség új tanító algoritmusokat javasol. Ehelyett rögzítik a tanító kódot, a modellt és a számítási keretet, így a résztvevők az új tanító adatsorok kidolgozásával versenyeznek.
Miért fontos?

Ha az AI olyan, mint a kémia, végezzünk kontrollált kísérleteket: A gépi tanulás skálázási törvényeinek (scaling laws) köszönhetően a kutatók elkezdték az AI-rendszereket az adatok, a számítási kapacitás és a hálózati komplexitás különböző keverékeivel tanítani. A DataComp egy lépéssel továbbmegy, és arra kéri a kutatókat, hogy ne csak az adatmennyiséget finomítsák, hanem gondolják át alaposan az adatkészlet tartalmát és összetettségét is.

Eredeti forrás megtekintése (angol) →