Az OpenAI kiadatlan modellje megoldotta a valaha készült legnehezebb AI matematikai teszt felét

2026. február 15. · MI Történik? · 1 perc olvasás

Tizenegy neves matematikus, köztük egy Fields-érmes, létrehozta a "First Proof" nevű tesztet: 10 nem publikált, kutatási szintű matematikai problémát saját munkájukból, hogy az AI érvelési képességét internetes rövidítések vagy tréningadatok nélkül teszteljék. Az OpenAI vezető kutatója, Jakub Pachocki arról számolt be, hogy egy belső, kiadatlan modell valószínűleg legalább 5-öt megoldott a 10 feladatból. Míg a nyilvános modellek, mint a ChatGPT és a Gemini csak 2-t tudtak teljesíteni, a kiadatlan modell nyers matematikai érvelést mutatott 10 részterületen, az algebrai topológiától a szimplektikus geometriáig.

Ugyanezen a napon az OpenAI közzétett egy fizikai preprint tanulmányt, amelyben a GPT-5.2 egy olyan formulát javasolt a gluon részecskék kölcsönhatására, amelyet a fizikusok évtizedekig lehetetlennek tartottak. A Harvard és a Cambridge kutatói igazolták az áttörést, amelyet a UC Santa Barbara professzora tudományos folyóirat szintű kutatásként írt le, amely tágítja az elméleti fizika határait. A First Proof feladatok következő köre március 14-re várható.

A First Proof feladatai nem publikáltak és kutatási szintűek voltak, megakadályozva a mintafelismerést.
A belső modell 5 problémát oldott meg (eredetileg 6-ot állítottak), míg a nyilvános modellek csak 2-t.
A matematikusok heteket vagy hónapokat töltöttek ezen feladatok megoldásával.
Szakértők ellenőrizték az AI kimeneteit, de nem adtak bizonyítási stratégiákat a modellnek.
A GPT-5.2 egy olyan igazolt formulát javasolt a gluon részecskék kölcsönhatására, amelyet korábban megoldhatatlannak hittek.

Miért fontos?

Az "AI nem képes tudományra" szemléletváltás az "AI tudományt művel" irányba felgyorsult. Ezek az eredmények azt sugallják, hogy az AI túllép az információkeresésen az eredeti tudományos és matematikai felfedezések világába, potenciálisan évtizedes elméleti fizikai problémákat oldva meg. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Termékképek precíz szerkesztése mesterséges intelligenciával

14 órája

MirrorCode Benchmark: Az AI rendszerek hetes nagyságrendű programozási feladatokat oldanak meg

1 napja

Az amerikai Genesis Mission kiválasztotta az első 278 AI tudományos projektet

4 napja

Tudj meg többet

AI a kutatásban és oktatásban: Hatékony irodalomkutatás és forráselemzés

OpenAI Sora: AI videógenerálás – minden, amit tudni kell