AI aranyat nyert a Matek Olimpián: OpenAI vagy Google?
A hétvégén az OpenAI azt állította, hogy egy új, kísérleti modellje éppen azt érte el, amit sokan az AI számára távoli álomnak tartottak: aranyérmes teljesítményt a 2025-ös Nemzetközi Matematikai Olimpián (IMO), a világ legrangosabb és legnehezebb középiskolai matematika versenyén.
Ez az új AI 6 probléma közül 5-öt oldott meg ugyanolyan megterhelő körülmények között, mint az emberi versenyzők – internet nélkül, eszközök nélkül, csupán órákig tartó tiszta érveléssel, többoldalas bizonyításokat produkálva.
De akkor is, emlékszik, amikor azt mondtuk, hogy „az OpenAI állította”? Kiderült, hogy ez a döntő győzelem nem olyan egyértelmű, mint amilyennek tűnik. Valójában a Google DeepMind érvelésért felelős vezetője azt sugallta, hogy az OpenAI valójában csak ezüstöt nyert (ha egyáltalán nyert valamit is)... és a szóbeszéd szerint a Google maga is aranyat nyerhetett.
Miért lenne ez nagy dolog, ha igaz? Alig néhány nappal ezelőtt egy nyilvános ranglista megmutatta, hogy az olyan modellek, mint a Gemini 2.5 Pro és az o3, még bronzérmet sem szereztek ugyanazon a teszten. Ez az új modell, amelyről az OpenAI azt mondja, hogy hónapokig nem lesz nyilvános, teljesen más kategória.
Az OpenAI állítólagos áttörése a reinforcement learning új technikáiból és egy jelentős szemléletváltásból ered – lehetővé téve a modellnek, hogy órákig „gondolkodjon” egyetlen problémán, ami hatalmas előrelépés az előző modellek által használt másodpercekhez vagy percekhez képest.
Wes Roth videója kiválóan összefoglalja a híreket és azt, miért is olyan jelentős ez. Wes elmagyarázta, hogy a modell korlátozott szókincset használt az érveléshez szükséges tokenek csökkentésére, ami, nos, kissé Kevinre emlékeztette őt a The Office-ból...
A legfontosabb, hogy a Google AlphaProof rendszerével ellentétben, amely tavaly ezüstérmet hozott a cégnek az olimpián, az OpenAI modellje egy általános nyelvi modell, nem pedig egy egyedi matematikai megoldó.
De ez az új matematikai modell csak egy arca egy sokkal nagyobb történetnek.
Természetesen a szkeptikusok teljes erővel támadnak. Nem sokkal a bejelentés előtt egy VAR-MATH nevű kutatási cikk került a címlapokra, amely azt állította, hogy az AI-k „csalnak” a matematikai teszteken azáltal, hogy mintákat memorizálnak.
De íme, amit a hírek kihagytak: a cikk saját adatai azt mutatták, hogy a felső kategóriás modellek, mint a DeepSeek-R1 és az OpenAI o4-mini, nagyrészt immunisak voltak erre a hibára, valós általánosítást mutatva.
Terence Tao Fields-érmes matematikus is óvatosságra intett, rámutatva, hogy előzetesen nyilvánosságra hozott módszertan nélkül nehéz összehasonlítani az emberi és az AI teljesítményét. Emellett megjegyezte, hogy az óriási számítási teljesítmény olyan, mintha egy „időgyorsító gépet” adnánk az AI-nak (az anime rajongóknak gondoljanak a DragonBall Z hiperbolikus időkamrájára).
Végül, és ami a legfontosabb, az OpenAI NEM működött együtt az IMO-val az eredményei ellenőrzéséhez. Ezt Mikhail Samin árulta el az X-en. Mi több, az IMO megkérte az AI cégeket, hogy várjanak egy hetet az eredményeik bejelentésével (hogy ne lopják el a show-t a versenyző emberi középiskolásoktól).
Mivel az OpenAI nem tudta visszafogni magát, az IMO „boldogan” kiszivárogtatta, hogy az OpenAI „szuper bunkó” Dwight-ot játszott a The Office-ból.
Még nagyobb jelentőséggel bír Thang Luong, a DeepMind munkatársa tweetje, miszerint egy valódi éremigényhez az IMO hivatalos pontozási útmutatója szerint kell értékelni. Szerinte, ha az OpenAI egyetlen pontot is veszít a 6. kérdésen, az ezüstérem nyeremény... nem arany. Ne feledjük, ez a vélemény egy versenytárstól származik... ezért várnunk kell az IMO hivatalos nyilatkozatára a végső következtetés levonásához.
- Egy új kódolási modell, az o3-alpha, amely abszolút uralja a WebDev Arena-t. A tesztelők szerint egyetlen promptból képes GTA és Minecraft klónokat létrehozni.
- Az a modell, amely második helyen végzett az AtCoder World Tour Finals-en, egy megterhelő, 10 órás kódolási maratonon (szorosan egy lengyel programozó verte meg).
- Az új, általános célú agent, amely képes használni a számítógépet, mint egy ember, amiről a múlt héten írtunk.
Miért fontos?
Ahogy Wes Roth összefoglalójában elmagyarázza, ez a szűk AI és az általános AI közötti különbségre vezethető vissza. A szűk AI egy olyan rendszer, amelyet egy speciális feladatban szuperhumán teljesítményre terveztek. Az általános AI egyetlen rendszer, amely sokféle területen képes érvelni és tanulni, akárcsak egy ember. Az áttörés itt az, hogy az OpenAI állítása szerint elérték egy magasan specializált, csak emberi terület csúcsát az általános célú rendszerükkel. ---