Az OpenAI bemutatja a FrontierScience benchmarkot a doktori szintű érvelés értékelésére

2025. december 18. · MI Történik? · 1 perc olvasás

Az OpenAI kiadott egy új értékelési keretrendszert FrontierScience néven, amelyet kifejezetten a doktori (PhD) szintű tudományos érvelési képességek mérésére terveztek. A benchmark összetett problémákat fed le a fizika, a kémia és a biológia területén. A kezdeti tesztek során az OpenAI GPT-5.2 modellje szerezte meg az első helyet, kimagasló teljesítményt nyújtva mind a strukturált feleletválasztós, mind a nyitott végű, mély szakértelmet igénylő tudományos feladatokban.

Doktori szintű érvelést mér fizikában, kémiában és biológiában
Strukturált és nyitott végű feladatformátumokat egyaránt tartalmaz
Jelenleg a GPT-5.2 vezeti a benchmark teljesítménytáblázatait
Célja az AI-értékelés kiterjesztése az általános ismereteken túl a mély szakértelem irányába

Miért fontos?

Ahogy az LLM-ek sorra veszik az általános tudást mérő teszteket, a kutatóknak egyre specifikusabb és nehezebb benchmarkokra van szükségük, hogy megkülönböztessék a valódi érvelésre képes modelleket az egyszerű mintafelismerőktől.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Interaktív ólom mágnesek építése a Canva Code-dal

15 órája

Termékképek precíz szerkesztése mesterséges intelligenciával

1 napja

MirrorCode Benchmark: Az AI rendszerek hetes nagyságrendű programozási feladatokat oldanak meg

2 napja

Tudj meg többet

AI a kutatásban és oktatásban: Hatékony irodalomkutatás és forráselemzés

OpenAI Sora: AI videógenerálás – minden, amit tudni kell