Az AARRI-Bench etikus és gondos kutatógyakornokként értékeli az AI-ágenseket

1 órája · MI Történik? · 2 perc olvasás

A Xi’an Jiaotong Egyetem és a Xidian Egyetem kutatói nemrég bemutatták az úgynevezett Act As a Real Research Intern, azaz röviden AARRI-Bench mérőrendszert, amely forradalmasíthatja az AI-ágensek tudományos munkára való felkészítését. A benchmark elsődleges célja nem csupán az AI technikai képességeinek mérése, hanem annak vizsgálata, hogy az autonóm rendszerek képesek-e valódi, emberi kutatókhoz méltó szakmai hozzáállással és etikai normákkal elvégezni a tudományos folyamatok háttérfeladatait. Az eddigi tesztek során a Claude-Opus-4.7 modell érte el a legmagasabb, 68,3 százalékos eredményt a Mini-Swe-Agent környezetében, ami jól mutatja, hogy az ilyen típusú összetett akadémiai feladatok még a legfejlettebb modellek számára is komoly kihívást jelentenek.

A csomag fejlesztői összesen 82 darab, kifejezetten valós kutatási tapasztalatokon alapuló, kézzel összeállított feladatot integráltak a rendszerbe, hogy minél átfogóbb képet kapjanak az ágensek viselkedéséről. A benchmark négy fő kategória köré épül: a vizsgálatok kiterjednek a kontextus megértésére, a gondolkodásmódra, a gyakorlati kivitelezésre és a humán-gép interakció minőségére. A nehézségi szintek fokozatosan épülnek egymásra, az S1-Adaptációtól kezdve, ahol a rendszer irányított utasításokat követ, egészen az S3-Innováció szintjéig, ahol már kreatív, önálló problémamegoldásra van szükség. Ez a rétegzett megközelítés lehetővé teszi, hogy a kutatók pontosan feltérképezzék, hol érhető tetten az AI esetleges bizonytalansága vagy szakmai felkészületlensége.

A rendszer legfontosabb újítása abban rejlik, hogy képes tesztelni az ágensek erkölcsi tartását és tudományos integritását. Olyan kritikus helyzeteket szimulál, mint a hamisított adatok kiszűrése, a tudományos publikációkba rejtett, úgynevezett papír-injektálásos LaTeX trükkök azonosítása, vagy éppen az a nehéz etikai döntési helyzet, amikor az ágensnek határozottan vissza kell utasítania a témavezetőtől érkező, tudományosan kifogásolható vagy manipulált adatokra épülő utasításokat. Ez a típusú akadémiai önismeret és független érvelés elengedhetetlen ahhoz, hogy a jövő kutatói valóban megbízhassanak az AI-asszisztensekben.

Ez a fejlesztés kulcsfontosságú mérföldkő az AI-gyorsította tudomány korában, ahol a sebesség mellett a megbízhatóság kerül a fókuszba. Ahogy egyre több kutatási folyamatot bíznak autonóm rendszerekre, alapvető elvárássá válik, hogy ezek a megoldások ne csupán a számítási kapacitásukkal, hanem az akadémiai szigor iránti elkötelezettségükkel is bizonyítsanak. Az AARRI-Bench így egyfajta etikus tudományos asszisztens tesztként funkcionál, amely biztosítja, hogy a technológiai fejlődés ne menjen a tudományos hitelesség rovására, megőrizve a kutatói munka alapvető integritását.

82, valós kutatási tapasztalatokon alapuló, kézzel készített feladatot tartalmaz.
A jelenlegi legmagasabb teljesítmény 68,3% (Claude-Opus-4.7 a Mini-Swe-Agenttel).
A kategóriák közé tartozik a Kontextus, a Gondolkodásmód, a Gyakorlati munka és az Interakció.
A nehézségi szintek az S1-Adaptációtól (irányított feladatok) az S3-Innovációig (kreatív problémamegoldás) terjednek.
A tesztek közé tartozik a hamisított adatok azonosítása, a „papír-injektálásos” LaTeX trükkök kiszűrése, valamint az eredmények hipotézishez igazításának visszautasítása.

Miért fontos?

Ez a benchmark „etikus tudományos asszisztens tesztként” szolgál. Ahogy haladunk az AI-gyorsította tudomány felé, biztosítanunk kell, hogy az autonóm ágensek ne csak gyorsan dolgozzanak, hanem megőrizzék a tudományos integritást és az akadémiai szigort.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A ChinaHeritaQA benchmark UNESCO világörökségi helyszíneken teszteli a látás-nyelvi modelleket

1 órája

A Xiaomi elképesztő, másodpercenkénti 1000 tokenes sebességet ért el a MiMo-V2.5-Pro-UltraSpeed modellel

1 órája

AI-kutatók elindították a Sequent projektet az alulfinanszírozott összehangolási kutatások támogatására

2 órája