Ugásszerűen nőtt az AI teljesítménye az MLE-Bench gépi tanulási mérnöki feladatain

2026. május 4. · MI Történik? · 1 perc olvasás

Az MLE-Bench egy OpenAI által fejlesztett teljesítménymérés, amely azt vizsgálja, hogy az AI-rendszerek mennyire képesek helytállni 75 különféle Kaggle-versenyen, amelyek az NLP, a számítógépes látás és a jelfeldolgozás területét fedik le. A 2024 októberi induláskor a legjobb AI-rendszerek a feladatoknak csak körülbelül 17%-át tudták megoldani. 2026 februárjára a teljesítmény 64% fölé emelkedett a Gemini 3 modell használatával, ágens-környezetben. Ez azt bizonyítja, hogy az AI-rendszerek rendkívül jártassá válnak a működő gépi tanulási modellek építéséhez szükséges teljes körű mérnöki feladatokban.

A benchmark 75 Kaggle-ről származó versenyt tartalmaz a valós ML készségek tesztelésére.
2024 október: A legjobb rendszer (o1 modell) 16,9%-os pontszámot ért el.
2026 február: A kereséssel és ágens-környezettel megtámogatott Gemini 3 elérte a 64,4%-ot.
A teszt különféle területeket vizsgál, beleértve a jelfeldolgozást és a számítógépes látást is.

Miért fontos?

Az MLE-Bench-en mutatott jártasság azt sugallja, hogy az AI a kódolási asszisztens szerepköréből képzett gépi tanulási mérnökké válik, aki önállóan képes összetett modellezési problémák megoldására. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

GPT-5.6 prompting útmutató és új, képernyő-tudatos AI frissítések

6 órája

A HP mesterséges intelligenciája előre jelzi és elhárítja a hardverhibákat

9 órája

AI-ügynökök tanítása szakértői korrekciók alapján

9 órája

Tudj meg többet

AI az oktatásban: Személyre szabott tanulási utak diákoknak és tanároknak

Gépi tanulás: mi az és hogyan működik? Érthető magyarázat kezdőknek