AI ESZKÖZÖK
A METR értékelései szerint az AI-ágensek olcsón képesek elvégezni 30 perces feladatokat
Az AI-mérésekkel foglalkozó startup, a METR megállapította, hogy a mai legerősebb modellek képesek olyan feladatok elvégzésére, amelyek az embereknek körülbelül 30 percig tartanak. Ezzel szemben az év elején megjelent AI-rendszerek többnyire csak olyan feladatokra voltak képesek, amelyek az embereknél 10 percet vesznek igénybe.
A METR körülbelül 50 különböző feladatot dolgozott ki a kibervédelem, a szoftvermérnöki tudományok és a machine learning területén. Ezt a feladatcsomagot egy bázisvonal létrehozására használták, ahol megvizsgálták, mennyire jól és mennyi idő alatt tudják az emberek teljesíteni ezeket. A legfejlettebb modelleken (3.5 Sonnet és GPT-4o) alapuló ágensek a feladatoknak olyan töredékét teljesítik, amely összemérhető azzal, amit az emberi tesztelők körülbelül 30 perc alatt végeznek el.
- A feladatok közé tartozik a „parancsinjektálásos támadás végrehajtása” és a „machine learning modell betanítása” is.
- A Claude 3.5 Sonnet kevesebb mint 2 dolláros token-költséggel javított ki hibákat egy programkönyvtárban.
- Az emberi tesztelőknek több mint két órába telt ugyanaz a hibajavítási feladat.
- Egy LM ágens használatának átlagos költsége körülbelül harmincad része egy amerikai diplomás medián órabérének.
- Az értékelés fókusza a szűk benchmarkokról (MATH, MMLU) a tetszőleges összetettségű, teljes feladatok felé tolódik el.
Miért fontos?
Az AI-rendszereket egyre inkább kollégaként vagy ágensként értékelik, nem pedig csupán korlátozott eszközként. Ahogy fejlődnek, képesek lesznek teljes körű szakmai feladatok elvégzésére az emberi munkaerő költségének töredékéért, ami a benchmarkok fókuszát az ágensszerű viselkedés irányába tolja el. ---