AI Hírek

A Google DeepMind AI-matematikussegédje új rekordot döntött a matematikai benchmarkokon

2026. május 11. · MI Történik? · 1 perc olvasás

A Google DeepMind nemrég publikált egy tanulmányt az AI-matematikussegédjéről; ez egy Gemini 3.1-re épülő ágensalapú rendszer, amelyet arra terveztek, hogy segítsen a matematikusoknak megoldatlan problémák leküzdésében. A rendszer új csúcsot állított be a kutatási szintű matematikai feladatok benchmarkján.

A DeepMind az eszközt olyan AI kódoló környezetek mintájára modellezte, mint a Claude Code, ágenscsapatokat és beépített ellenőrzési ciklusokat vezetve be a matematikai kutatásba.
Egy koordinátor ágens párhuzamos munkafolyamatokra bontja a kutatást, amelyek mindegyikében alágensek írnak kódot, kutatnak a szakirodalomban és próbálnak bizonyításokat levezetni.
Az oxfordi Marc Lackenby megoldott egy nyitott problémát a Kourovka-füzetben (Kourovka Notebook), miután egy elutasított kimenetben egy „igazán, igazán okos bizonyítási stratégiát” fedezett fel.
Az Epoch AI FrontierMath Tier 4-es szintjén a rendszer 48%-kal került a ranglista élére, ami több mint duplája a Gemini 3.1 Pro 19%-os nyers pontszámának.

Miért fontos?

Az AI a frontier modellek fejlődésével már eddig is fellendülést hozott a matematikai felfedezésekben, és a kódoláshoz hasonlóan az ágensalapú folyamatok most lehetővé teszik az AI rendszerek számára, hogy még messzebbre jussanak. Ám Lackenby felfedezése is mutatja: a jövő fényes az olyan AI számára, amely segíti a legkiválóbb elméket munkájuk felgyorsításában, ahelyett, hogy helyettesítené őket. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az IBM vezérigazgatója szerint az AI-infrastruktúra kiépítése hátrányosan érinti a vállalati szoftvereladásokat

19 órája

Az OpenAI hordozható, okos AI-hangszórót dobna piacra

1 napja

A PrismML bemutatta az eddigi legnagyobb, iPhone-on futtatható AI-modellt

1 napja

Tudj meg többet

Perplexity AI: A Google-kereső AI-vel felturbózva

Gemini a Gmail-ben és a Google Docs-ban: Így automatizáld a munkád