MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Epoch AI bemutatja a FrontierMath-et az AI érvelési korlátainak feszegetésére

Az Epoch AI 60 elit matematikussal – köztük Fields-érmesekkel és a Nemzetközi Matematikai Diákolimpia feladatíróival – együttműködve létrehozta a FrontierMath-et, egy rendkívül nehéz matematikai benchmarkot. Mivel az AI rendszerek gyorsan megoldották az általános iskolai és az egyetemi matematikai teszteket, a FrontierMath a posztgraduális és a professzionális kutatói matematikát célozza meg. A kérdések a modern matematika fő ágait ölelik fel, a számítógépes számelmélettől az absztrakt algebrai geometriáig, és megoldásuk egy szakértő matematikusnak is jellemzően órákba vagy napokba telik. A kezdeti tesztek során az olyan csúcsmodellek, mint a GPT-4o és a Claude 3.5 Sonnet, mindössze 2% körüli eredményt értek el a benchmarkon, még akkor is, ha bőséges gondolkodási időt és Python-környezetet kaptak a kódok futtatásához és a részeredmények ellenőrzéséhez.
Miért fontos?

Ahogy az olyan létező benchmarkokat, mint az MMLU és a MATH, „eltörölték” az új modellek, a FrontierMath új „Sarki Csillagként” szolgál a magas szintű érveléshez. Ennek a benchmarknak a megoldása jelentős ugrást jelentene a mesterséges általános intelligencia (AGI) és a szakértői szintű autonóm problémamegoldás felé. ---

Eredeti forrás megtekintése (angol) →