OpenAI Kiadta a GPT-5.5-öt, Felülmúlja az Opus 4.7-et a Benchmarkokban
Az OpenAI tegnap kiadta a GPT-5.5-öt, pontosan hét nappal azután, hogy az Anthropic piacra dobta az Opus 4.7-et. Hivatalosan is egy "labor-egy-hét" kiadási ütemtervben vagyunk, és senki sem pislog.
- A GPT-5.5 "munkás-osztályú", azaz feladatok elvégzésére készült, nem csak kérdések megválaszolására. Élőben elérhető a ChatGPT-ben és a Codexben a Plus, Pro, Business és Enterprise felhasználók számára; az API hozzáférés "nagyon hamar" elérhető lesz, 5$/30$ áron, millió bemeneti/kimeneti tokenenként.
- Megnyerte a Terminal-Bench 2.0-t (82,7% az Opus 4.7 69,4%-ával szemben), és döntetlent ért el vagy felülmúlta az iparági szakembereket a GDPval feladatok 84,9%-ában, 44 munkafolyamatban. Elmarad a SWE-Bench Pro-ban (58,6% a 64,3%-kal szemben), egy csillaggal jelezve az Anthropic által ezen az értékelésen jelzett "memorizálás jeleit".
- A FrontierMath Tier 4-en 27,1%-ról 35,4%-ra ugrott, és segített felfedezni egy új bizonyítást az off-diagonális Ramsey-számokkal kapcsolatban, amelyet később a Lean-ben ellenőriztek.
- Az OpenAI "Magas" értékelést adott neki mind a bio/kémiai, mind a kiberképességei terén. Az XBOW partner "Mítosz-szerű hackelésnek, mindenki számára nyitottnak" nevezte, ami elindította a "Trusted Access for Cyber" programot az ellenőrzött védelmezők számára.
Miért fontos?
Ez az első tiszta "GPT legyőzi Claude-ot" pillanat több mint egy éve, és pontosan hét nappal az Anthropic legjobbja után érkezett. Ha ügynököket futtatsz production-ben, valószínűleg újra szeretnéd tesztelni őket mindkét modellen ezen a hétvégén.