TUDOMÁNYOS AI
AI-ágensek oldják meg a CORE-Bench tudományos kutatási reprodukálhatósági kihívásait
Az AI-kutatás egyik alapvető készsége a tudományos publikációk olvasása és az eredmények reprodukálása. A CORE-Bench (Computational Reproducibility Agent Benchmark) ezt teszteli azáltal, hogy elvárja az AI-ágensektől könyvtárak telepítését, kódok futtatását és a kutatási repozitóriumok kimeneteinek ellenőrzését. Bár a korai modellek küzdöttek ezekkel a feladatokkal, a tesztet 2025 végén „megoldottnak” nyilvánították. Ez azt jelzi, hogy az AI-rendszerek mesteri szinten elsajátították azt a képességet, hogy egy meglévő kutatást átvegyenek és annak technikai állításait autonóm módon igazolják.
- A CORE-Bench ágenseinek navigálniuk kell a repozitóriumokban, kezelniük kell a függőségeket, és komplex kódokat kell futtatniuk az eredmények ellenőrzéséhez.
- 2024 szeptemberében a legjobb rendszer (GPT-4o egy CORE-Agent környezetben) 21,5%-ot ért el.
- 2025 decemberére egy Opus 4.5 modell 95,5%-os sikerességi arányt mutatott fel.
- A benchmark mind a telepítés sikerességét, mind a kimenetekkel kapcsolatos specifikus technikai kérdések megválaszolásának képességét értékeli.
Miért fontos?
A kutatások önálló reprodukálásának és ellenőrzésének képessége kritikus építőeleme azoknak az AI-rendszereknek, amelyek végül saját, újszerű kutatási ötleteket fognak javasolni és tesztelni. ---