Az OpenAI O3 a „test-time compute” skálázásával mutat jelentős fejlődést

AI MODELLEK

Az OpenAI O3 a „test-time compute” skálázásával mutat jelentős fejlődést

2024. december 23. · MI Történik? · 1 perc olvasás

Az OpenAI új O3 modellje bizonyítja, hogy a „test-time compute” skálázása – amely lehetővé teszi a modellek számára, hogy a következtetési idő alatt „hangosan gondolkodjanak” – drámai teljesítményjavulást eredményez. Az O3 gyakorlatilag megdöntötte a GPQA tudományos benchmarkot, és hatalmas előrelépést ért el a FrontierMath és a versenyprogramozási feladatok terén. Ez az új paradigma azt sugallja, hogy az AI fejlődése 2025-ben felgyorsul, ahogy a pretraining skálázás kiegészül a megerősítéses tanuláson alapuló érveléssel. Az O3 kulcsfontosságú aspektusa, hogy a teljesítmény javítható több számítási kapacitás felhasználásával a válaszadás pillanatában. A legmagasabb pontszámot elérő verzió 170-szer több számítási kapacitást használt, mint az alacsonyabb pontszámú változatok, ami kevésbé kiszámíthatóvá, de sokkal képzettebbé teszi ezen rendszerek működtetését.

88%-ot ért el a GPQA tudományos megértési benchmarkon.
25%-ot ért el a FrontierMath teszten, szemben a korábbi 2%-os csúcsteljesítménnyel.
2727 pontot szerzett a Codeforces-on, amivel a 175. legjobb versenyprogramozó közé került.
Az MTurker dolgozóinál is jobb teljesítményt nyújtott az ARC-AGI díjért folyó versenyben.
A nagy teljesítményű verziók jelentősen több következtetési idő alatti tokent használnak az összetett problémák megoldásához.

Miért fontos?

Ez a modell cáfolja azt a nézetet, miszerint az AI skálázása falakba ütközne. Azzal, hogy a skálázást a tanításról a test-time compute irányába is kiterjesztik, a fejlődési görbe valószínűleg meredekebbé vált, ami azt jelenti, hogy a 2024 és 2025 közötti képességbeli ugrás drasztikusabb lesz, mint azt sokan várták. ---

Eredeti forrás megtekintése (angol) →