AIRS-BENCH: AI ügynökök alapvető ML kutatási feladatokat végeznek
- CodeGenerationAPPSPassAt5: Kódolási problémák megoldása öt különböző Python program generálásával minden problémához.
- CoreferenceResolutionWinograndeAccuracy: Annak azonosítása, hogy egy mondatban lévő névmás a két lehetséges opció közül melyikre utal. A Winogrande adathalmazt használja, amely olyan mondatokat tartalmaz, amelyekben kétértelmű névmás és két lehetséges válasz található.
- TimeSeriesForecastingRideshareMAE: Idősor-előrejelzés végrehajtása a Rideshare adathalmazon, amely a Monash Time Series Forecasting Repository része.
Miért fontos ez – a modellek eltérő megoldásokat adhatnak, mint az emberek, és ez egy jó módja annak tanulmányozására, hogy van-e itt „skálázási törvény”: Az egyik módja annak, hogy ez érdekes lehet, az annak megértése, hogy a modellek milyen különböző módon oldhatják meg a feladatokat az emberekhez képest. Egyik példában, a TextualClassificationSickAccuracy-ben a modelleknek meg kellett határozniuk, hogy egy mondatpárnak van-e következményre, ellentmondásra vagy nincs kapcsolatra utaló kapcsolata. Az irodalmi SOTA (State of the Art) az, hogy egy személy finomhangolja a RoBERTa-t az alapul szolgáló tréning halmazon, és teszteli a teszt halmazon. Összehasonlításképpen, a legjobban tesztelt AIRS-BENCH ügynök, a GPT-OSS-120B, „egy kétszintű, halmozott együttest hoz létre, amely több transformer modellt és egy meta-tanulót kombinál. A RoBERTa-large és DeBERTa-v3-large modelleket egymástól függetlenül finomhangolják a SICK tréning halmazon. Minden modell mondatpárokat dolgoz fel, és logiteket ad kimenetként minden osztályhoz. A tréninget 5-fold stratified cross-validation segítségével végzik, biztosítva a robusztus out-of-fold (OOF) előrejelzéseket és megakadályozva a túltanulást. Az alapmodellek logitjait összefűzik, hogy minden példához egy jellemzővektort hozzanak létre.” Ez rendkívül bonyolult! De az is érdekes, hogy talán tanulhatunk valamit az ügynökök fejlődéséről azáltal, hogy megvizsgáljuk, hogyan skálázódik a megoldásaik egyszerűsége a mérettel, ahol naivan azt várnám, hogy az erősebb modellek egyszerűbb megoldásokra jutnak. Ahogy Blaise Pascal állítólag egyszer mondta: „Csak azért írtam hosszabbra ezt a levelet, mert nem volt időm rövidebbre írni.”