MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az OpenAI közzétette a GDPval benchmarkot az AI valós gazdasági feladatokban nyújtott teljesítményének mérésére

Az OpenAI megalkotta és közzétette a GDPval-t, egy rendkívül jól összeállított benchmarkot annak tesztelésére, hogy az AI-rendszerek hogyan teljesítenek a reálgazdaságban előforduló feladatokban. A GDPval a széles körű valós gazdasági hatás tekintetében az lehet a mérések (evals) között, ami a SWE-Bench a programozási hatás szempontjából – ami nagy dolog! A GDPval a modellek teljesítményét olyan feladatokon méri, amelyek közvetlenül tapasztalt szakemberek valós szellemi munkájából származnak számos foglalkozási ágból és szektorból, így tisztább képet ad arról, hogyan teljesítenek a modellek a gazdaságilag értékes feladatokban. A benchmark 9 iparágat és 44 foglalkozást tesztel, beleértve 1230 specializált feladatot, amelyeket egyenként, aprólékosan dolgoztak ki és ellenőriztek az adott területeken átlagosan több mint 14 éves tapasztalattal rendelkező szakemberek. Az adatkészlet foglalkozásonként 30 teljesen átvizsgált feladatot tartalmaz, foglalkozásonként 5 feladattal egy nyílt forráskódú „gold set”-ben. A modell teljesítményének értékeléséhez az OpenAI szakértő értékelőkre támaszkodik – tapasztalt szakemberekre ugyanazokból a munkakörökből, amelyek az adatkészletben szerepelnek. Ezek az értékelők vakon hasonlítják össze a modell által generált eredményeket a feladatírók által készített produktumokkal, kritikákat és rangsorokat adva. Az eredmények azt mutatják, hogy a mai legjobb élvonalbeli modellek már megközelítik az iparági szakértők által végzett munka minőségét, miközben a modellek nagyjából 100-szor gyorsabban és 100-szor olcsóbban végzik el a feladatokat, mint a szakemberek.
Miért fontos?

Az AI-vállalatok olyan rendszereket építenek, amelyek a gazdaság minden egyes részébe beépülnek. A rendszereket rendkívül széles körű viselkedésminták alapján teszteljük ökológiailag valid benchmarkokkal, amelyek végső soron megmutatják, mennyire tudnak ezek a rendszerek beilleszkedni a világ mintegy 44 különálló „ökológiai gazdasági fülkéjébe”. Azt tapasztaljuk, hogy rendkívül közel állnak ahhoz, hogy ugyanúgy illeszkedjenek, mint az emberek – és ez még csak a mai modellekkel van így. Hamarosan sok embernél jobbak lesznek ezekben a feladatokban.

Eredeti forrás megtekintése (angol) →