A METR értékelései szerint az AI-ágensek olcsón képesek elvégezni 30 perces feladatokat

AI ESZKÖZÖK

A METR értékelései szerint az AI-ágensek olcsón képesek elvégezni 30 perces feladatokat

2024. augusztus 12. · MI Történik? · 1 perc olvasás

Az AI-mérésekkel foglalkozó startup, a METR megállapította, hogy a mai legerősebb modellek képesek olyan feladatok elvégzésére, amelyek az embereknek körülbelül 30 percig tartanak. Ezzel szemben az év elején megjelent AI-rendszerek többnyire csak olyan feladatokra voltak képesek, amelyek az embereknél 10 percet vesznek igénybe. A METR körülbelül 50 különböző feladatot dolgozott ki a kibervédelem, a szoftvermérnöki tudományok és a machine learning területén. Ezt a feladatcsomagot egy bázisvonal létrehozására használták, ahol megvizsgálták, mennyire jól és mennyi idő alatt tudják az emberek teljesíteni ezeket. A legfejlettebb modelleken (3.5 Sonnet és GPT-4o) alapuló ágensek a feladatoknak olyan töredékét teljesítik, amely összemérhető azzal, amit az emberi tesztelők körülbelül 30 perc alatt végeznek el.

A feladatok közé tartozik a „parancsinjektálásos támadás végrehajtása” és a „machine learning modell betanítása” is.
A Claude 3.5 Sonnet kevesebb mint 2 dolláros token-költséggel javított ki hibákat egy programkönyvtárban.
Az emberi tesztelőknek több mint két órába telt ugyanaz a hibajavítási feladat.
Egy LM ágens használatának átlagos költsége körülbelül harmincad része egy amerikai diplomás medián órabérének.
Az értékelés fókusza a szűk benchmarkokról (MATH, MMLU) a tetszőleges összetettségű, teljes feladatok felé tolódik el.

Miért fontos?

Az AI-rendszereket egyre inkább kollégaként vagy ágensként értékelik, nem pedig csupán korlátozott eszközként. Ahogy fejlődnek, képesek lesznek teljes körű szakmai feladatok elvégzésére az emberi munkaerő költségének töredékéért, ami a benchmarkok fókuszát az ágensszerű viselkedés irányába tolja el. ---

Eredeti forrás megtekintése (angol) →