OPENAI
Az OpenAI újratervezi a kódolási benchmarkot az emberileg validált SWE-bench Verified segítségével
Az OpenAI és az SWE-bench készítői együttműködtek a népszerű szoftvermérnöki benchmark újratervezésében, és kiadták az „SWE-bench Verified” verziót, amely az eredeti benchmark emberileg validált részhalmaza.
- Az SWE-bench Verified megoldja az eredeti benchmark problémáit, például a túl specifikus unit teszteket és a megbízhatatlan fejlesztői környezeteket, amelyek az AI teljesítményének helytelen értékeléséhez vezettek.
- Az új részhalmaz 500 mintát tartalmaz, amelyeket profi szoftverfejlesztők ellenőriztek, hogy a modellek értékelése az SWE-bench-en egyszerűbbé és megbízhatóbbá váljon.
- Az SWE-bench Verified teszten a GPT-4o a minták 33,2%-át oldja meg, a legjobb nyílt forráskódú (open-source) keretrendszer, az Agentless pedig megduplázta korábbi pontszámát, 16%-ra emelkedve.
- Az SWE-bench Verified ranglistáján nem szerepel a Cosine Genie-je, amely nemrég azt állította, hogy megdöntötte a rekordot a régi benchmarkon.
Miért fontos?
Az AI pontos mérése az emberi szintű feladatokban, mint például a kódolás, kulcsfontosságú az átláthatóság és az AI-kockázatok felmérése szempontjából. Ugyanakkor az OpenAI együttműködése az SWE-bench-csel kétélű fegyver – bár javítja a benchmarkot, kérdéseket vet fel az esetleges összeférhetetlenséggel kapcsolatban is, különösen a „Project Strawberry” körüli pletykák felerősödésével. ---