MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az OpenAI bemutatja a FrontierScience benchmarkot a doktori szintű érvelés értékelésére

Az OpenAI kiadott egy új értékelési keretrendszert FrontierScience néven, amelyet kifejezetten a doktori (PhD) szintű tudományos érvelési képességek mérésére terveztek. A benchmark összetett problémákat fed le a fizika, a kémia és a biológia területén. A kezdeti tesztek során az OpenAI GPT-5.2 modellje szerezte meg az első helyet, kimagasló teljesítményt nyújtva mind a strukturált feleletválasztós, mind a nyitott végű, mély szakértelmet igénylő tudományos feladatokban.

Miért fontos?

Ahogy az LLM-ek sorra veszik az általános tudást mérő teszteket, a kutatóknak egyre specifikusabb és nehezebb benchmarkokra van szükségük, hogy megkülönböztessék a valódi érvelésre képes modelleket az egyszerű mintafelismerőktől.

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
A Perplexity és a Harvard tanulmánya feltérképezi az összetett AI ágens alapú munka felé való eltolódást
3 napja
Az MIT tanulmánya azonosítja a legfőbb AI-kockázatokat és a felelős intézményeket
4 napja
Tanulmány: Az AI tutorok felülmúlják a jogi kart
2026. június 4.
Tudj meg többet
AI a kutatásban és oktatásban: Hatékony irodalomkutatás és forráselemzés
OpenAI Sora: AI videógenerálás – minden, amit tudni kell