AI KUTATÁS
Az OpenAI létrehozta a PaperBench-et az AI kutatás-reprodukciós képességének tesztelésére
Az OpenAI közzétette a PaperBench-et, amellyel azt mérik, mennyire képesek a modern AI rendszerek reprodukálni az AI-kutatások eredményeit. A PaperBench célja annak megállapítása, hogy az AI képes-e felgyorsítani magát az AI-kutatást – amitől egyrészt sokan tartanak, másrészt az általános intelligencia (AGI) elengedhetetlen előfeltételének tekintik. Emiatt a PaperBench lehet az a benchmark, amely „figyelmeztető lövésként” szolgálhat egy közelgő, AI-vezérelt szoftverrobbanás előtt.
- Az ágenseknek 20 darab ICML 2024-es (Spotlight és Oral kategóriájú) tanulmányt kell a nulláról reprodukálniuk.
- A feladatok közé tartozik a tanulmányok lényegének megértése, a kódbázis kifejlesztése és a kísérletek sikeres végrehajtása.
- A benchmark 8 316 egyedi, pontozható részfeladatból áll.
- Az egyes tanulmányok értékelési szempontrendszerét több héten keresztül, az eredeti szerzőkkel együttműködve dolgozták ki.
Miért fontos?
A PaperBench egy olyan benchmark, amely az egyik első jelzése lehet annak, hogy egy AI-vezérelt szoftverfejlesztési robbanás küszöbén állunk.