Az OpenAI létrehozta a PaperBench-et az AI kutatás-reprodukciós képességének tesztelésére

2025. április 7. · MI Történik? · 1 perc olvasás

Az OpenAI közzétette a PaperBench-et, amellyel azt mérik, mennyire képesek a modern AI rendszerek reprodukálni az AI-kutatások eredményeit. A PaperBench célja annak megállapítása, hogy az AI képes-e felgyorsítani magát az AI-kutatást – amitől egyrészt sokan tartanak, másrészt az általános intelligencia (AGI) elengedhetetlen előfeltételének tekintik. Emiatt a PaperBench lehet az a benchmark, amely „figyelmeztető lövésként” szolgálhat egy közelgő, AI-vezérelt szoftverrobbanás előtt.

Az ágenseknek 20 darab ICML 2024-es (Spotlight és Oral kategóriájú) tanulmányt kell a nulláról reprodukálniuk.
A feladatok közé tartozik a tanulmányok lényegének megértése, a kódbázis kifejlesztése és a kísérletek sikeres végrehajtása.
A benchmark 8 316 egyedi, pontozható részfeladatból áll.
Az egyes tanulmányok értékelési szempontrendszerét több héten keresztül, az eredeti szerzőkkel együttműködve dolgozták ki.

Miért fontos?

A PaperBench egy olyan benchmark, amely az egyik első jelzése lehet annak, hogy egy AI-vezérelt szoftverfejlesztési robbanás küszöbén állunk.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Perplexity és a Harvard tanulmánya feltérképezi az összetett AI ágens alapú munka felé való eltolódást

3 napja

Az MIT tanulmánya azonosítja a legfőbb AI-kockázatokat és a felelős intézményeket

4 napja

Tanulmány: Az AI tutorok felülmúlják a jogi kart

2026. június 4.

Tudj meg többet

AI a kutatásban és oktatásban: Hatékony irodalomkutatás és forráselemzés

OpenAI Sora: AI videógenerálás – minden, amit tudni kell