AI TELJESÍTMÉNYMÉRÉS
Az OpenAI közzétette a GDPval benchmarkot az AI valós gazdasági feladatokban nyújtott teljesítményének mérésére
Az OpenAI megalkotta és közzétette a GDPval-t, egy rendkívül jól összeállított benchmarkot annak tesztelésére, hogy az AI-rendszerek hogyan teljesítenek a reálgazdaságban előforduló feladatokban. A GDPval a széles körű valós gazdasági hatás tekintetében az lehet a mérések (evals) között, ami a SWE-Bench a programozási hatás szempontjából – ami nagy dolog!
A GDPval a modellek teljesítményét olyan feladatokon méri, amelyek közvetlenül tapasztalt szakemberek valós szellemi munkájából származnak számos foglalkozási ágból és szektorból, így tisztább képet ad arról, hogyan teljesítenek a modellek a gazdaságilag értékes feladatokban. A benchmark 9 iparágat és 44 foglalkozást tesztel, beleértve 1230 specializált feladatot, amelyeket egyenként, aprólékosan dolgoztak ki és ellenőriztek az adott területeken átlagosan több mint 14 éves tapasztalattal rendelkező szakemberek. Az adatkészlet foglalkozásonként 30 teljesen átvizsgált feladatot tartalmaz, foglalkozásonként 5 feladattal egy nyílt forráskódú „gold set”-ben.
A modell teljesítményének értékeléséhez az OpenAI szakértő értékelőkre támaszkodik – tapasztalt szakemberekre ugyanazokból a munkakörökből, amelyek az adatkészletben szerepelnek. Ezek az értékelők vakon hasonlítják össze a modell által generált eredményeket a feladatírók által készített produktumokkal, kritikákat és rangsorokat adva. Az eredmények azt mutatják, hogy a mai legjobb élvonalbeli modellek már megközelítik az iparági szakértők által végzett munka minőségét, miközben a modellek nagyjából 100-szor gyorsabban és 100-szor olcsóbban végzik el a feladatokat, mint a szakemberek.
- Ingatlan és bérbeadás: Ide tartoznak a recepciósok, ingatlanüzemeltetők, ingatlanértékesítők és brókerek.
- Kormányzat: Ide tartoznak a megfelelőségi tisztviselők, rendőrségi felügyelők, adminisztratív vezetők és szociális munkások.
- Gyártás: Ide tartoznak a gépész- és ipari mérnökök, beszerzők, készletnyilvántartók és termelési felügyelők.
- Szakmai, tudományos és műszaki szolgáltatások: Ide tartoznak a szoftverfejlesztők, ügyvédek, könyvelők és projektmenedzserek.
- Egészségügy és szociális ellátás: Ide tartoznak a diplomás ápolók, szakápolók, egészségügyi vezetők és orvosi titkárok.
- Pénzügy és biztosítás: Ide tartoznak a befektetési elemzők, pénzügyi vezetők, tanácsadók és ügyfélszolgálati képviselők.
- Kiskereskedelem: Ide tartoznak a gyógyszerészek, kiskereskedelmi értékesítési vezetők és általános műveleti menedzserek.
- Nagykereskedelem: Ide tartoznak az értékesítési vezetők, rendelésfelvételi ügyintézők és műszaki termékképviselők.
- Információ: Ide tartoznak az audio/video technikusok, producerek, rendezők, hírelemzők és szerkesztők.
Miért fontos?
Az AI-vállalatok olyan rendszereket építenek, amelyek a gazdaság minden egyes részébe beépülnek. A rendszereket rendkívül széles körű viselkedésminták alapján teszteljük ökológiailag valid benchmarkokkal, amelyek végső soron megmutatják, mennyire tudnak ezek a rendszerek beilleszkedni a világ mintegy 44 különálló „ökológiai gazdasági fülkéjébe”. Azt tapasztaljuk, hogy rendkívül közel állnak ahhoz, hogy ugyanúgy illeszkedjenek, mint az emberek – és ez még csak a mai modellekkel van így. Hamarosan sok embernél jobbak lesznek ezekben a feladatokban.