Az Epoch AI elindítja a FrontierMath Tier 4-et a szakértői szintű érvelés tesztelésére

AI BENCHMARKOK

Az Epoch AI elindítja a FrontierMath Tier 4-et a szakértői szintű érvelés tesztelésére

2025. július 14. · MI Történik? · 1 perc olvasás

Az Epoch AI tesztelő szervezet elindította a FrontierMath Tier 4-et, amely rendkívül nehéz, kutatói szintű matematikai problémákból álló benchmark az AI érvelési képességeinek feszegetésére. 2025. július 11-i adatok szerint a világ legjobb AI rendszerei (köztük az OpenAI o4-mini, a Claude Opus 4 és a Gemini 2.5 Pro) mindössze egyszámjegyű sikerességi rátát értek el ezeken a feladatokon.

A Tier 4 szint 50 kihívást jelentő problémát tartalmaz, amelyeket posztdoktori kutatók és matematikaprofesszorok közösen dolgoztak ki.
A feladatok a matematikai fogalmak mély ismeretét és kreatív problémamegoldó készségeket igényelnek, amelyeket még a matematikusok is kivételesen nehéznek találnak.
Az összes értékelés során mindössze három Tier 4 kérdést tudott megoldani bármelyik AI modell, gyakran indokolatlan feltételezésekre támaszkodva.
A benchmarkot azért hozták létre, mert a korábbi verziókat túl gyorsan megoldották; az OpenAI o3 modellje röviddel a megjelenése után elérte a 25%-ot az eredeti FrontierMath teszten.

Miért fontos?

A FrontierMath azért értékes, mert nehéz. Ugyanakkor azt is jelzi, hogy a benchmarkok tervezése terén közeledünk az emberi tudás határaihoz. Hamarosan a rendszerek olyan kérdésekre adhatnak választ, amelyeket a bolygón csak maroknyi ember képes kiértékelni, ami megnehezíti az AI által generált bizonyítások helyességének ellenőrzését. ---

Eredeti forrás megtekintése (angol) →