MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

AI-ágensek oldják meg a CORE-Bench tudományos kutatási reprodukálhatósági kihívásait

Az AI-kutatás egyik alapvető készsége a tudományos publikációk olvasása és az eredmények reprodukálása. A CORE-Bench (Computational Reproducibility Agent Benchmark) ezt teszteli azáltal, hogy elvárja az AI-ágensektől könyvtárak telepítését, kódok futtatását és a kutatási repozitóriumok kimeneteinek ellenőrzését. Bár a korai modellek küzdöttek ezekkel a feladatokkal, a tesztet 2025 végén „megoldottnak” nyilvánították. Ez azt jelzi, hogy az AI-rendszerek mesteri szinten elsajátították azt a képességet, hogy egy meglévő kutatást átvegyenek és annak technikai állításait autonóm módon igazolják.
Miért fontos?

A kutatások önálló reprodukálásának és ellenőrzésének képessége kritikus építőeleme azoknak az AI-rendszereknek, amelyek végül saját, újszerű kutatási ötleteket fognak javasolni és tesztelni. ---

Eredeti forrás megtekintése (angol) →