Az Epoch AI bemutatja a FrontierMath-et az AI érvelési korlátainak feszegetésére

AI KIÉRTÉKELÉS

Az Epoch AI bemutatja a FrontierMath-et az AI érvelési korlátainak feszegetésére

2024. november 11. · MI Történik? · 1 perc olvasás

Az Epoch AI 60 elit matematikussal – köztük Fields-érmesekkel és a Nemzetközi Matematikai Diákolimpia feladatíróival – együttműködve létrehozta a FrontierMath-et, egy rendkívül nehéz matematikai benchmarkot. Mivel az AI rendszerek gyorsan megoldották az általános iskolai és az egyetemi matematikai teszteket, a FrontierMath a posztgraduális és a professzionális kutatói matematikát célozza meg. A kérdések a modern matematika fő ágait ölelik fel, a számítógépes számelmélettől az absztrakt algebrai geometriáig, és megoldásuk egy szakértő matematikusnak is jellemzően órákba vagy napokba telik. A kezdeti tesztek során az olyan csúcsmodellek, mint a GPT-4o és a Claude 3.5 Sonnet, mindössze 2% körüli eredményt értek el a benchmarkon, még akkor is, ha bőséges gondolkodási időt és Python-környezetet kaptak a kódok futtatásához és a részeredmények ellenőrzéséhez.

60 matematikussal partnerségben fejlesztették ki, köztük olyan Fields-érmesekkel, mint Terence Tao és Timothy Gowers.
Olyan összetett területeket fed le, mint a számelmélet, kombinatorika, csoportelmélet és sztochasztikus folyamatok.
Az értékelési keretrendszer gondolkodási időt és Python-környezetet biztosít a modelleknek az iteratív teszteléshez és a hipotézisek ellenőrzéséhez.
A jelenlegi csúcsmodellek (GPT-4o és Sonnet 3.5) mindössze 2%-os sikerességi rátát érnek el.
Timothy Gowers Fields-érmes megjegyezte, hogy a problémák szignifikánsan magasabb nehézségi szintet képviselnek, mint az IMO feladatok.

Miért fontos?

Ahogy az olyan létező benchmarkokat, mint az MMLU és a MATH, „eltörölték” az új modellek, a FrontierMath új „Sarki Csillagként” szolgál a magas szintű érveléshez. Ennek a benchmarknak a megoldása jelentős ugrást jelentene a mesterséges általános intelligencia (AGI) és a szakértői szintű autonóm problémamegoldás felé. ---

Eredeti forrás megtekintése (angol) →