AI KIÉRTÉKELÉS
Az Epoch AI bemutatja a FrontierMath-et az AI érvelési korlátainak feszegetésére
Az Epoch AI 60 elit matematikussal – köztük Fields-érmesekkel és a Nemzetközi Matematikai Diákolimpia feladatíróival – együttműködve létrehozta a FrontierMath-et, egy rendkívül nehéz matematikai benchmarkot. Mivel az AI rendszerek gyorsan megoldották az általános iskolai és az egyetemi matematikai teszteket, a FrontierMath a posztgraduális és a professzionális kutatói matematikát célozza meg. A kérdések a modern matematika fő ágait ölelik fel, a számítógépes számelmélettől az absztrakt algebrai geometriáig, és megoldásuk egy szakértő matematikusnak is jellemzően órákba vagy napokba telik. A kezdeti tesztek során az olyan csúcsmodellek, mint a GPT-4o és a Claude 3.5 Sonnet, mindössze 2% körüli eredményt értek el a benchmarkon, még akkor is, ha bőséges gondolkodási időt és Python-környezetet kaptak a kódok futtatásához és a részeredmények ellenőrzéséhez.
- 60 matematikussal partnerségben fejlesztették ki, köztük olyan Fields-érmesekkel, mint Terence Tao és Timothy Gowers.
- Olyan összetett területeket fed le, mint a számelmélet, kombinatorika, csoportelmélet és sztochasztikus folyamatok.
- Az értékelési keretrendszer gondolkodási időt és Python-környezetet biztosít a modelleknek az iteratív teszteléshez és a hipotézisek ellenőrzéséhez.
- A jelenlegi csúcsmodellek (GPT-4o és Sonnet 3.5) mindössze 2%-os sikerességi rátát érnek el.
- Timothy Gowers Fields-érmes megjegyezte, hogy a problémák szignifikánsan magasabb nehézségi szintet képviselnek, mint az IMO feladatok.
Miért fontos?
Ahogy az olyan létező benchmarkokat, mint az MMLU és a MATH, „eltörölték” az új modellek, a FrontierMath új „Sarki Csillagként” szolgál a magas szintű érveléshez. Ennek a benchmarknak a megoldása jelentős ugrást jelentene a mesterséges általános intelligencia (AGI) és a szakértői szintű autonóm problémamegoldás felé. ---