ML MÉRNÖKSÉG
Ugásszerűen nőtt az AI teljesítménye az MLE-Bench gépi tanulási mérnöki feladatain
Az MLE-Bench egy OpenAI által fejlesztett teljesítménymérés, amely azt vizsgálja, hogy az AI-rendszerek mennyire képesek helytállni 75 különféle Kaggle-versenyen, amelyek az NLP, a számítógépes látás és a jelfeldolgozás területét fedik le. A 2024 októberi induláskor a legjobb AI-rendszerek a feladatoknak csak körülbelül 17%-át tudták megoldani. 2026 februárjára a teljesítmény 64% fölé emelkedett a Gemini 3 modell használatával, ágens-környezetben. Ez azt bizonyítja, hogy az AI-rendszerek rendkívül jártassá válnak a működő gépi tanulási modellek építéséhez szükséges teljes körű mérnöki feladatokban.
- A benchmark 75 Kaggle-ről származó versenyt tartalmaz a valós ML készségek tesztelésére.
- 2024 október: A legjobb rendszer (o1 modell) 16,9%-os pontszámot ért el.
- 2026 február: A kereséssel és ágens-környezettel megtámogatott Gemini 3 elérte a 64,4%-ot.
- A teszt különféle területeket vizsgál, beleértve a jelfeldolgozást és a számítógépes látást is.
Miért fontos?
Az MLE-Bench-en mutatott jártasság azt sugallja, hogy az AI a kódolási asszisztens szerepköréből képzett gépi tanulási mérnökké válik, aki önállóan képes összetett modellezési problémák megoldására. ---