MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Epoch AI elindítja a FrontierMath Tier 4-et a szakértői szintű érvelés tesztelésére

Az Epoch AI tesztelő szervezet elindította a FrontierMath Tier 4-et, amely rendkívül nehéz, kutatói szintű matematikai problémákból álló benchmark az AI érvelési képességeinek feszegetésére. 2025. július 11-i adatok szerint a világ legjobb AI rendszerei (köztük az OpenAI o4-mini, a Claude Opus 4 és a Gemini 2.5 Pro) mindössze egyszámjegyű sikerességi rátát értek el ezeken a feladatokon.
Miért fontos?

A FrontierMath azért értékes, mert nehéz. Ugyanakkor azt is jelzi, hogy a benchmarkok tervezése terén közeledünk az emberi tudás határaihoz. Hamarosan a rendszerek olyan kérdésekre adhatnak választ, amelyeket a bolygón csak maroknyi ember képes kiértékelni, ami megnehezíti az AI által generált bizonyítások helyességének ellenőrzését. ---

Eredeti forrás megtekintése (angol) →