AI KUTATÁS
Az OpenAI 44 munkakörben teszteli az AI-t emberi dolgozók ellen
Az OpenAI most mutatta be a GDPval-t, egy új benchmarkot, amely azt méri, hogy az AI modellek képesek-e megfelelni a professzionális munkaminőségnek 44 foglalkozásban – olyan vezető modelleket tesztelve, mint a GPT-5, Claude Opus 4.1, Gemini 2.5 és Grok 4 iparági szakértőkkel szemben.
- A GDPval 1320 feladatot értékelt, amelyeket átlagosan 14 év tapasztalattal rendelkező szakemberek hoztak létre 9 gazdasági ágazatban, mint például az egészségügy és a pénzügy.
- Az Opus 4.1 érte el a legmagasabb pontszámokat 47,6%-os nyerési aránnyal, és kiemelkedett a vizuális prezentációs feladatokban, míg a GPT-5 a technikai pontosságban jeleskedett.
- Az OpenAI azt is megállapította, hogy a teljesítmény megháromszorozódott a GPT-4o-ról a GPT-5-re 15 hónap alatt, ami gyors javulást mutat a munkahelyi feladatok ellátásában.
Miért fontos?
Az azonnali munkaerő-lecserélésről szóló főcímek ellenére a GDPval azt mutatja, hogy még a legjobb modellek is csak most érik el a szakemberekkel való egyenlő szintet bizonyos feladatokban. De ha ez a benchmark hasonló az AI világ más benchmarkjaihoz, akkor nem sok idő múlva a fejlettebb modellek jelentős ugrást tesznek, mindössze néhány hónapos gyorsulással. ---