AIRS-BENCH: AI ügynökök alapvető ML kutatási feladatokat végeznek

AI HÍREK

AIRS-BENCH: AI ügynökök alapvető ML kutatási feladatokat végeznek

2026. február 16. · MI Történik? · 2 perc olvasás

És számíthatunk arra, hogy a mai modellek sokkal jobbak lesznek ebben, mint amit a tanulmány sugall… A Meta, az Oxfordi Egyetem és a University College London kutatói kifejlesztették és kiadták az AI Research Science Benchmark (AIRS-BENCH) nevű rendszert, amely egy módszer annak tesztelésére, hogy az AI rendszerek mennyire jól tudnak elvégezni kortárs gépi tanulási feladatokat. Miből áll az AIRS-BENCH: Az AIRS-BENCH azt teszteli, hogy az ügynökök mennyire jól tudnak megoldani 20 különböző feladatot, amelyek 17 friss gépi tanulási tanulmányból származnak. A feladatok sokféle technikai műfajt ölelnek fel, többek között: molekulák és fehérjék gépi tanulása, kérdésmegválaszolás, szövegkivonatolás és illesztés, idősorok, szövegosztályozás, kód és matematika. Néhány példafeladat: Eredmények: Valódi problémák, vacak modellek: Ez egy kissé zavarba ejtő benchmark – a feladatok érdekesek és sok komplexitást tartalmaznak. De a tanulmány csak viszonylag rossz modelleket tesztel, mint például a Code World Model, o3-mini, gpt-oss-20b, gpt-oss-120b, GPT-4o és Devstral-Small 24B. Ez egy nagyon vicces modellkészlet, és egyik sem igazi élvonalbeli – a tanulmány egyik szerzője a Twitteren írta, hogy „[ez eltartott egy ideig, amíg elkészült](https://x.com/j_foerst/status/2021524537662210204)”, így ez csak a lassú publikálási ütemtervek egyik mellékhatása lehet. A teszteken egyik modell sem éri el egy kategóriájában legjobb ember ELO-pontszámát – de nem tudom, mit kezdjek ezzel, amíg nem látok eredményeket erősebb modellekkel.

CodeGenerationAPPSPassAt5: Kódolási problémák megoldása öt különböző Python program generálásával minden problémához.
CoreferenceResolutionWinograndeAccuracy: Annak azonosítása, hogy egy mondatban lévő névmás a két lehetséges opció közül melyikre utal. A Winogrande adathalmazt használja, amely olyan mondatokat tartalmaz, amelyekben kétértelmű névmás és két lehetséges válasz található.
TimeSeriesForecastingRideshareMAE: Idősor-előrejelzés végrehajtása a Rideshare adathalmazon, amely a Monash Time Series Forecasting Repository része.

Miért fontos?

Miért fontos ez – a modellek eltérő megoldásokat adhatnak, mint az emberek, és ez egy jó módja annak tanulmányozására, hogy van-e itt „skálázási törvény”: Az egyik módja annak, hogy ez érdekes lehet, az annak megértése, hogy a modellek milyen különböző módon oldhatják meg a feladatokat az emberekhez képest. Egyik példában, a TextualClassificationSickAccuracy-ben a modelleknek meg kellett határozniuk, hogy egy mondatpárnak van-e következményre, ellentmondásra vagy nincs kapcsolatra utaló kapcsolata. Az irodalmi SOTA (State of the Art) az, hogy egy személy finomhangolja a RoBERTa-t az alapul szolgáló tréning halmazon, és teszteli a teszt halmazon. Összehasonlításképpen, a legjobban tesztelt AIRS-BENCH ügynök, a GPT-OSS-120B, „egy kétszintű, halmozott együttest hoz létre, amely több transformer modellt és egy meta-tanulót kombinál. A RoBERTa-large és DeBERTa-v3-large modelleket egymástól függetlenül finomhangolják a SICK tréning halmazon. Minden modell mondatpárokat dolgoz fel, és logiteket ad kimenetként minden osztályhoz. A tréninget 5-fold stratified cross-validation segítségével végzik, biztosítva a robusztus out-of-fold (OOF) előrejelzéseket és megakadályozva a túltanulást. Az alapmodellek logitjait összefűzik, hogy minden példához egy jellemzővektort hozzanak létre.” Ez rendkívül bonyolult! De az is érdekes, hogy talán tanulhatunk valamit az ügynökök fejlődéséről azáltal, hogy megvizsgáljuk, hogyan skálázódik a megoldásaik egyszerűsége a mérettel, ahol naivan azt várnám, hogy az erősebb modellek egyszerűbb megoldásokra jutnak. Ahogy Blaise Pascal állítólag egyszer mondta: „Csak azért írtam hosszabbra ezt a levelet, mert nem volt időm rövidebbre írni.”

Eredeti forrás megtekintése (angol) →