AI BENCHMARKOK
Az Epoch AI elindítja a FrontierMath Tier 4-et a szakértői szintű érvelés tesztelésére
Az Epoch AI tesztelő szervezet elindította a FrontierMath Tier 4-et, amely rendkívül nehéz, kutatói szintű matematikai problémákból álló benchmark az AI érvelési képességeinek feszegetésére. 2025. július 11-i adatok szerint a világ legjobb AI rendszerei (köztük az OpenAI o4-mini, a Claude Opus 4 és a Gemini 2.5 Pro) mindössze egyszámjegyű sikerességi rátát értek el ezeken a feladatokon.
- A Tier 4 szint 50 kihívást jelentő problémát tartalmaz, amelyeket posztdoktori kutatók és matematikaprofesszorok közösen dolgoztak ki.
- A feladatok a matematikai fogalmak mély ismeretét és kreatív problémamegoldó készségeket igényelnek, amelyeket még a matematikusok is kivételesen nehéznek találnak.
- Az összes értékelés során mindössze három Tier 4 kérdést tudott megoldani bármelyik AI modell, gyakran indokolatlan feltételezésekre támaszkodva.
- A benchmarkot azért hozták létre, mert a korábbi verziókat túl gyorsan megoldották; az OpenAI o3 modellje röviddel a megjelenése után elérte a 25%-ot az eredeti FrontierMath teszten.
Miért fontos?
A FrontierMath azért értékes, mert nehéz. Ugyanakkor azt is jelzi, hogy a benchmarkok tervezése terén közeledünk az emberi tudás határaihoz. Hamarosan a rendszerek olyan kérdésekre adhatnak választ, amelyeket a bolygón csak maroknyi ember képes kiértékelni, ami megnehezíti az AI által generált bizonyítások helyességének ellenőrzését. ---