Az OpenAI bemutatja az MLE-bench-et az AI ágensek értékeléséhez

AI KUTATÁS

Az OpenAI bemutatja az MLE-bench-et az AI ágensek értékeléséhez

2024. október 11. · MI Történik? · 1 perc olvasás

Az OpenAI bemutatta az MLE-bench-et, egy új benchmarkot, amelynek célja annak értékelése, hogy az AI ágensek mennyire teljesítenek jól a valós gépi tanulási mérnöki feladatokban Kaggle versenyek használatával.

Az MLE-bench 75 válogatott Kaggle versenyből áll, amelyek az ML feladatok széles skáláját fedik le, mint például a modelltanítás, az adat-előkészítés és a kísérletezés.
A Kaggle versenyek olyan online kihívások, ahol adattudósok versenyeznek összetett problémák gépi tanulással történő megoldásában nyereményekért és elismerésért.
A kutatás során az AI modellek gyakran sikerrel alkalmazták a standard technikákat, de küzdöttek az alkalmazkodóképességet vagy kreatív problémamegoldást igénylő feladatokkal.
A legjobban teljesítő konfiguráció, az OpenAI o1-preview modellje AIDE keretrendszerrel, a versenyek 16,9%-ában legalább bronzérmet ért el.

Miért fontos?

Az AI ágensek rohamléptekkel érkeznek — és új benchmarkokra van szükség az olyan képességek értékeléséhez, amelyek messze túlszárnyalják a korábbi tesztelési módszereket. Az OpenAI közleménye, az ágens-képességeket fejlesztő startupok hulláma és az új benchmarkok létrehozása között az AI ágens-forradalom bármelyik pillanatban berobbanhat. ---

Eredeti forrás megtekintése (angol) →