MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az OpenAI újratervezi a kódolási benchmarkot az emberileg validált SWE-bench Verified segítségével

Az OpenAI és az SWE-bench készítői együttműködtek a népszerű szoftvermérnöki benchmark újratervezésében, és kiadták az „SWE-bench Verified” verziót, amely az eredeti benchmark emberileg validált részhalmaza.
Miért fontos?

Az AI pontos mérése az emberi szintű feladatokban, mint például a kódolás, kulcsfontosságú az átláthatóság és az AI-kockázatok felmérése szempontjából. Ugyanakkor az OpenAI együttműködése az SWE-bench-csel kétélű fegyver – bár javítja a benchmarkot, kérdéseket vet fel az esetleges összeférhetetlenséggel kapcsolatban is, különösen a „Project Strawberry” körüli pletykák felerősödésével. ---

Eredeti forrás megtekintése (angol) →