MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Surge AI kiadta a Riemann-bench-et a haladó matematikai érvelés tesztelésére

A Surge AI elindította a Riemann-bench-et, egy új matematikai benchmarkot, amelyet Ivy League professzorokkal együttműködve fejlesztettek ki. A benchmarkot a „moonshot matematika” tesztelésére tervezték, olyan problémákra összpontosítva, amelyek jelenleg még a legfejlettebb frontier AI modellek képességeit is meghaladják. Ez az új tesztcsomag a GSM8K matematikai benchmark örökségét követi, amelynek felépítésében a Surge szintén segédkezett. Míg a GSM8K-t egykor szinte megoldhatatlannak tartották, végül szabvánnyá vált, amelyet a modellek néhány éven belül elsajátítottak, a Riemann-bench célja, hogy minden eddiginél messzebbre tolja az AI érvelés határait.
Miért fontos?

Ahogy a jelenlegi AI benchmarkok túl könnyűvé válnak a modern LLM-ek számára, új és szigorúbb tesztelési környezetekre van szükség az AI érvelési és problémamegoldó képességeinek következő ugrásának méréséhez. ---

Eredeti forrás megtekintése (angol) →