AI-ágensek oldják meg a CORE-Bench tudományos kutatási reprodukálhatósági kihívásait

2026. május 4. · MI Történik? · 1 perc olvasás

Az AI-kutatás egyik alapvető készsége a tudományos publikációk olvasása és az eredmények reprodukálása. A CORE-Bench (Computational Reproducibility Agent Benchmark) ezt teszteli azáltal, hogy elvárja az AI-ágensektől könyvtárak telepítését, kódok futtatását és a kutatási repozitóriumok kimeneteinek ellenőrzését. Bár a korai modellek küzdöttek ezekkel a feladatokkal, a tesztet 2025 végén „megoldottnak” nyilvánították. Ez azt jelzi, hogy az AI-rendszerek mesteri szinten elsajátították azt a képességet, hogy egy meglévő kutatást átvegyenek és annak technikai állításait autonóm módon igazolják.

A CORE-Bench ágenseinek navigálniuk kell a repozitóriumokban, kezelniük kell a függőségeket, és komplex kódokat kell futtatniuk az eredmények ellenőrzéséhez.
2024 szeptemberében a legjobb rendszer (GPT-4o egy CORE-Agent környezetben) 21,5%-ot ért el.
2025 decemberére egy Opus 4.5 modell 95,5%-os sikerességi arányt mutatott fel.
A benchmark mind a telepítés sikerességét, mind a kimenetekkel kapcsolatos specifikus technikai kérdések megválaszolásának képességét értékeli.

Miért fontos?

A kutatások önálló reprodukálásának és ellenőrzésének képessége kritikus építőeleme azoknak az AI-rendszereknek, amelyek végül saját, újszerű kutatási ötleteket fognak javasolni és tesztelni. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

GPT-5.6 prompting útmutató és új, képernyő-tudatos AI frissítések

7 órája

A HP mesterséges intelligenciája előre jelzi és elhárítja a hardverhibákat

10 órája

AI-ügynökök tanítása szakértői korrekciók alapján

10 órája