Az OpenAI újratervezi a kódolási benchmarkot az emberileg validált SWE-bench Verified segítségével

OPENAI

Az OpenAI újratervezi a kódolási benchmarkot az emberileg validált SWE-bench Verified segítségével

2024. augusztus 14. · MI Történik? · 1 perc olvasás

Az OpenAI és az SWE-bench készítői együttműködtek a népszerű szoftvermérnöki benchmark újratervezésében, és kiadták az „SWE-bench Verified” verziót, amely az eredeti benchmark emberileg validált részhalmaza.

Az SWE-bench Verified megoldja az eredeti benchmark problémáit, például a túl specifikus unit teszteket és a megbízhatatlan fejlesztői környezeteket, amelyek az AI teljesítményének helytelen értékeléséhez vezettek.
Az új részhalmaz 500 mintát tartalmaz, amelyeket profi szoftverfejlesztők ellenőriztek, hogy a modellek értékelése az SWE-bench-en egyszerűbbé és megbízhatóbbá váljon.
Az SWE-bench Verified teszten a GPT-4o a minták 33,2%-át oldja meg, a legjobb nyílt forráskódú (open-source) keretrendszer, az Agentless pedig megduplázta korábbi pontszámát, 16%-ra emelkedve.
Az SWE-bench Verified ranglistáján nem szerepel a Cosine Genie-je, amely nemrég azt állította, hogy megdöntötte a rekordot a régi benchmarkon.

Miért fontos?

Az AI pontos mérése az emberi szintű feladatokban, mint például a kódolás, kulcsfontosságú az átláthatóság és az AI-kockázatok felmérése szempontjából. Ugyanakkor az OpenAI együttműködése az SWE-bench-csel kétélű fegyver – bár javítja a benchmarkot, kérdéseket vet fel az esetleges összeférhetetlenséggel kapcsolatban is, különösen a „Project Strawberry” körüli pletykák felerősödésével. ---

Eredeti forrás megtekintése (angol) →