A Google DeepMind AI-matematikussegédje új rekordot döntött a matematikai benchmarkokon
A Google DeepMind nemrég publikált egy tanulmányt az AI-matematikussegédjéről; ez egy Gemini 3.1-re épülő ágensalapú rendszer, amelyet arra terveztek, hogy segítsen a matematikusoknak megoldatlan problémák leküzdésében. A rendszer új csúcsot állított be a kutatási szintű matematikai feladatok benchmarkján.
- A DeepMind az eszközt olyan AI kódoló környezetek mintájára modellezte, mint a Claude Code, ágenscsapatokat és beépített ellenőrzési ciklusokat vezetve be a matematikai kutatásba.
- Egy koordinátor ágens párhuzamos munkafolyamatokra bontja a kutatást, amelyek mindegyikében alágensek írnak kódot, kutatnak a szakirodalomban és próbálnak bizonyításokat levezetni.
- Az oxfordi Marc Lackenby megoldott egy nyitott problémát a Kourovka-füzetben (Kourovka Notebook), miután egy elutasított kimenetben egy „igazán, igazán okos bizonyítási stratégiát” fedezett fel.
- Az Epoch AI FrontierMath Tier 4-es szintjén a rendszer 48%-kal került a ranglista élére, ami több mint duplája a Gemini 3.1 Pro 19%-os nyers pontszámának.
Az AI a frontier modellek fejlődésével már eddig is fellendülést hozott a matematikai felfedezésekben, és a kódoláshoz hasonlóan az ágensalapú folyamatok most lehetővé teszik az AI rendszerek számára, hogy még messzebbre jussanak. Ám Lackenby felfedezése is mutatja: a jövő fényes az olyan AI számára, amely segíti a legkiválóbb elméket munkájuk felgyorsításában, ahelyett, hogy helyettesítené őket. ---