Előrejelző megduplázza az AI K+F automatizálásának valószínűségét
- Miért optimista Ryan: Ryan idővonalai több okból is megváltoztak, amelyek a modellek teljesítményével és megbízhatóságával kapcsolatosak az idő múlásával.
- Jobb modellek: Az Opus 4.5 és a Codex 5.2 „jelentősen felülmúlta a várakozásaimat”, ezt követte az Opus 4.6 (és valószínűleg a Codex 5.3 és 5.4), amelyek „szintén felülmúlták a várakozásaimat”.
- Idő: Viszonylag egyszerű feladatok esetében Ryan olyan AI rendszerek bemutatóit látta, amelyek „emberek számára hónapokig vagy évekig tartó feladatokat” végeztek, és most „óvatosan” úgy gondolja, hogy az AI rendszerek „egy hónap és több év közötti időtartamra” megbízhatóan képesek bizonyos feladatok elvégzésére.
- Egyszerű feladatok: Ryan optimistább idővonalainak kulcsfontosságú eleme az egyszerű feladatokon mutatott nagyon lenyűgöző teljesítmény – ezek olyan feladatok, ahol „rá lehet venni az AI-t, hogy fejlesszen ki egy test suite-ot / benchmark set-et, majd hatalmas mennyiségű időt tölthet azzal, hogy optimalizálja a megoldását ezen értékelési halmaz ellenében” – írja. „Ez a típusú ciklus azt jelenti, hogy még ha az AI néha össze is zavarodik vagy rossz döntéseket hoz, van egy korrekciós tényező, és a hibák általában nem kritikusak.”
- Rengeteg ilyen feladat van a szoftverfejlesztésen belül. Az AI annyira jó lett bennük, hogy úgy gondolja, „jól benne vagyunk az 50%-os megbízhatósági időtávra vonatkozó szuper-exponenciális fejlődésben”. „Azt hiszem, eléggé valószínű, hogy az [ezeken a feladatokon] mutatott nagyon erős teljesítmény... lehetővé teszi az AI-k számára, hogy jelentősen felgyorsítsák az AI K+F-et” – írja.
Ryan idővonalának frissítését megelőzte egy hasonló frissítés Ajeya Cotra részéről, aki márciusban (#448) jelentősen módosította saját idővonal-becsléseit, részben az időtáv-modellezés alapján, valamint Eli Lifland és Daniel Kokotajlo (AI 2027, #408) is, akik áprilisban azt nyilatkozták, hogy „idővonalainkat ~1,5 évvel előrébb hozták”, főként a „gyorsabb time horizon growth” és a „coding agents” miatt. Ezzel párhuzamosan az AI teljesítményével kapcsolatos szélesebb körű tanulmányok azt mutatják, hogy az elmúlt ~egy évben a capability progress a korábbi trendek felett gyorsulni kezdett olyan területeken, mint a cyberoffense (#452). Az én szemszögemből nézve szinte mindenki az AI kutatásban krónikusan alábecsüli az AI fejlődését, beleértve engem is. Talán az egyetlen, aki nem, az a kollégám, Dario Amodei. Ezt zavarba ejtőnek találom – azt várná az ember, hogy az AI kutatók jól kalibráltak és talán túlságosan optimisták a fejlődéssel kapcsolatban, az a tény, hogy a nagy többség túlságosan konzervatív 5 évnyi scaling laws fellendülés után, eredendően meglepő. Talán feltételeznünk kellene, hogy mindannyian továbbra is alábecsüljük az AI fejlődésének valódi ütemét? Sok szerencsét mindannyiunknak.