ÁGENS KÉPESSÉGEK
Az AI autonómia megbízhatósága a perces szintről tizenkét órás időtávra nőtt
A METR azt követi nyomon, hogy milyen összetettségű feladatokat tud az AI elvégezni, mérve, hogy egy képzett embernek hány órába telne a befejezésük. Azon „időtáv” fejlődése, amely alatt az AI-rendszerek legalább 50%-os megbízhatósággal működnek, lenyűgöző. 2022-ben a rendszerek csak olyan feladatokat tudtak kezelni, amelyek egy embernek 30 másodpercig tartottak. 2026-ra ez 12 órára emelkedett az olyan modellekkel, mint az Opus 4.6. Az önálló munkaidő ilyen mértékű bővülése korrelál az ágens-alapú kódoló eszközök robbanásszerű terjedésével és azzal, hogy az AI képes több lépésből álló kutatási feladatokat, például adattisztítást és kísérletek indítását emberi beavatkozás nélkül elvégezni.
- 2022-ben a GPT 3.5 a körülbelül 30 másodpercig tartó feladatoknál volt megbízható.
- 2024-ben az o1 modell ezt a megbízhatósági ablakot 40 percre tágította.
- 2026 elején az Opus 4.6 elérte a nagyjából 12 órás megbízhatósági időtávot.
- A METR elemzői arra számítanak, hogy az AI-rendszerek 2026 végére már 100 órányi emberi munkát igénylő feladatokat is képesek lesznek kezelni.
Miért fontos?
A megbízhatósági időtáv skálázása elengedhetetlen a feladatok delegálásához. Ahogy az AI-rendszerek képesek lesznek percek helyett napokig önállóan dolgozni, egyre összetettebb és magasabb értékű kutatási projekteket vehetnek át. ---