MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Epoch AI elindítja a FrontierMath Tier 4-et a szakértői szintű érvelés tesztelésére

Az Epoch AI tesztelő szervezet elindította a FrontierMath Tier 4-et, amely rendkívül nehéz, kutatói szintű matematikai problémákból álló benchmark az AI érvelési képességeinek feszegetésére. 2025. július 11-i adatok szerint a világ legjobb AI rendszerei (köztük az OpenAI o4-mini, a Claude Opus 4 és a Gemini 2.5 Pro) mindössze egyszámjegyű sikerességi rátát értek el ezeken a feladatokon.

Miért fontos?

A FrontierMath azért értékes, mert nehéz. Ugyanakkor azt is jelzi, hogy a benchmarkok tervezése terén közeledünk az emberi tudás határaihoz. Hamarosan a rendszerek olyan kérdésekre adhatnak választ, amelyeket a bolygón csak maroknyi ember képes kiértékelni, ami megnehezíti az AI által generált bizonyítások helyességének ellenőrzését. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
A Surge AI kiadta a Riemann-bench-et a haladó matematikai érvelés tesztelésére
2026. március 26.
AI-modellek szerezték meg az élmezőnyt a programozó világbajnokságon
2025. szeptember 18.
A Salesforce CRMArena-Pro benchmarkja összetett üzleti logikán teszteli az LLM ágenseket
2025. június 16.