AI MODELLEK
Az OpenAI O3 a „test-time compute” skálázásával mutat jelentős fejlődést
Az OpenAI új O3 modellje bizonyítja, hogy a „test-time compute” skálázása – amely lehetővé teszi a modellek számára, hogy a következtetési idő alatt „hangosan gondolkodjanak” – drámai teljesítményjavulást eredményez. Az O3 gyakorlatilag megdöntötte a GPQA tudományos benchmarkot, és hatalmas előrelépést ért el a FrontierMath és a versenyprogramozási feladatok terén. Ez az új paradigma azt sugallja, hogy az AI fejlődése 2025-ben felgyorsul, ahogy a pretraining skálázás kiegészül a megerősítéses tanuláson alapuló érveléssel.
Az O3 kulcsfontosságú aspektusa, hogy a teljesítmény javítható több számítási kapacitás felhasználásával a válaszadás pillanatában. A legmagasabb pontszámot elérő verzió 170-szer több számítási kapacitást használt, mint az alacsonyabb pontszámú változatok, ami kevésbé kiszámíthatóvá, de sokkal képzettebbé teszi ezen rendszerek működtetését.
- 88%-ot ért el a GPQA tudományos megértési benchmarkon.
- 25%-ot ért el a FrontierMath teszten, szemben a korábbi 2%-os csúcsteljesítménnyel.
- 2727 pontot szerzett a Codeforces-on, amivel a 175. legjobb versenyprogramozó közé került.
- Az MTurker dolgozóinál is jobb teljesítményt nyújtott az ARC-AGI díjért folyó versenyben.
- A nagy teljesítményű verziók jelentősen több következtetési idő alatti tokent használnak az összetett problémák megoldásához.
Miért fontos?
Ez a modell cáfolja azt a nézetet, miszerint az AI skálázása falakba ütközne. Azzal, hogy a skálázást a tanításról a test-time compute irányába is kiterjesztik, a fejlődési görbe valószínűleg meredekebbé vált, ami azt jelenti, hogy a 2024 és 2025 közötti képességbeli ugrás drasztikusabb lesz, mint azt sokan várták. ---