MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A METR értékelései szerint az AI-ágensek olcsón képesek elvégezni 30 perces feladatokat

Az AI-mérésekkel foglalkozó startup, a METR megállapította, hogy a mai legerősebb modellek képesek olyan feladatok elvégzésére, amelyek az embereknek körülbelül 30 percig tartanak. Ezzel szemben az év elején megjelent AI-rendszerek többnyire csak olyan feladatokra voltak képesek, amelyek az embereknél 10 percet vesznek igénybe. A METR körülbelül 50 különböző feladatot dolgozott ki a kibervédelem, a szoftvermérnöki tudományok és a machine learning területén. Ezt a feladatcsomagot egy bázisvonal létrehozására használták, ahol megvizsgálták, mennyire jól és mennyi idő alatt tudják az emberek teljesíteni ezeket. A legfejlettebb modelleken (3.5 Sonnet és GPT-4o) alapuló ágensek a feladatoknak olyan töredékét teljesítik, amely összemérhető azzal, amit az emberi tesztelők körülbelül 30 perc alatt végeznek el.
Miért fontos?

Az AI-rendszereket egyre inkább kollégaként vagy ágensként értékelik, nem pedig csupán korlátozott eszközként. Ahogy fejlődnek, képesek lesznek teljes körű szakmai feladatok elvégzésére az emberi munkaerő költségének töredékéért, ami a benchmarkok fókuszát az ágensszerű viselkedés irányába tolja el. ---

Eredeti forrás megtekintése (angol) →