Az OpenAI 44 munkakörben teszteli az AI-t emberi dolgozók ellen

2025. szeptember 26. · MI Történik? · 1 perc olvasás

Az OpenAI most mutatta be a GDPval-t, egy új benchmarkot, amely azt méri, hogy az AI modellek képesek-e megfelelni a professzionális munkaminőségnek 44 foglalkozásban – olyan vezető modelleket tesztelve, mint a GPT-5, Claude Opus 4.1, Gemini 2.5 és Grok 4 iparági szakértőkkel szemben.

A GDPval 1320 feladatot értékelt, amelyeket átlagosan 14 év tapasztalattal rendelkező szakemberek hoztak létre 9 gazdasági ágazatban, mint például az egészségügy és a pénzügy.
Az Opus 4.1 érte el a legmagasabb pontszámokat 47,6%-os nyerési aránnyal, és kiemelkedett a vizuális prezentációs feladatokban, míg a GPT-5 a technikai pontosságban jeleskedett.
Az OpenAI azt is megállapította, hogy a teljesítmény megháromszorozódott a GPT-4o-ról a GPT-5-re 15 hónap alatt, ami gyors javulást mutat a munkahelyi feladatok ellátásában.

Miért fontos?

Az azonnali munkaerő-lecserélésről szóló főcímek ellenére a GDPval azt mutatja, hogy még a legjobb modellek is csak most érik el a szakemberekkel való egyenlő szintet bizonyos feladatokban. De ha ez a benchmark hasonló az AI világ más benchmarkjaihoz, akkor nem sok idő múlva a fejlettebb modellek jelentős ugrást tesznek, mindössze néhány hónapos gyorsulással. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Interaktív ólom mágnesek építése a Canva Code-dal

5 órája

Termékképek precíz szerkesztése mesterséges intelligenciával

tegnap

MirrorCode Benchmark: Az AI rendszerek hetes nagyságrendű programozási feladatokat oldanak meg

1 napja

Tudj meg többet

AI a kutatásban és oktatásban: Hatékony irodalomkutatás és forráselemzés

Vektor Adatbázisok és RAG (Retrieval-Augmented Generation): Így teheted okosabbá és naprakészebbé az AI-t