AI KUTATÁS
Az OpenAI bemutatja az MLE-bench-et az AI ágensek értékeléséhez
Az OpenAI bemutatta az MLE-bench-et, egy új benchmarkot, amelynek célja annak értékelése, hogy az AI ágensek mennyire teljesítenek jól a valós gépi tanulási mérnöki feladatokban Kaggle versenyek használatával.
- Az MLE-bench 75 válogatott Kaggle versenyből áll, amelyek az ML feladatok széles skáláját fedik le, mint például a modelltanítás, az adat-előkészítés és a kísérletezés.
- A Kaggle versenyek olyan online kihívások, ahol adattudósok versenyeznek összetett problémák gépi tanulással történő megoldásában nyereményekért és elismerésért.
- A kutatás során az AI modellek gyakran sikerrel alkalmazták a standard technikákat, de küzdöttek az alkalmazkodóképességet vagy kreatív problémamegoldást igénylő feladatokkal.
- A legjobban teljesítő konfiguráció, az OpenAI o1-preview modellje AIDE keretrendszerrel, a versenyek 16,9%-ában legalább bronzérmet ért el.
Miért fontos?
Az AI ágensek rohamléptekkel érkeznek — és új benchmarkokra van szükség az olyan képességek értékeléséhez, amelyek messze túlszárnyalják a korábbi tesztelési módszereket. Az OpenAI közleménye, az ágens-képességeket fejlesztő startupok hulláma és az új benchmarkok létrehozása között az AI ágens-forradalom bármelyik pillanatban berobbanhat. ---