AI ÁGENSEK
A Google Aletheia ágense a Gemini 3 Deep Think segítségével old meg összetett matematikai feladatokat
Az LLM-ek már aranyérmes teljesítményt értek el matematikai versenyeken. Egy ágens alapú rendszer most a matematikai kutatásokban is megmutatta erejét. Újdonság: Tony Feng, Quoc V. Le, Thang Luong és kollégáik a Google-nél bemutatták az Aletheia-t, egy ágenst, amely korábban megoldatlan matematikai problémákhoz generált, ellenőrzött és javított megoldásokat. Az Aletheia egy matematikai kutatásokra szánt ágens alapú munkafolyamat, amely a Gemini 3 Deep Think legújabb frissítését használja – ez a Gemini 3 Pro modell speciális érvelési módja a vállalat prémium AI szolgáltatásának előfizetői számára. Ezzel egy időben a Google szélesebb körben is elérhetővé tette a Gemini 3 Deep Think-et API-n keresztül. Gemini 3 Deep Think: A Google a Deep Think-et a legfejlettebb érvelési módjaként hirdeti, amelyet többlépcsős matematikai, tudományos és mérnöki feladatokra terveztek. Párhuzamosan több érvelési láncot generál, mérlegeli őket, majd javítja vagy kombinálja őket a végső kimenet előállításához. Eredmények: A kutatók eddig hat publikált tanulmányban használták az Aletheia-t: kettőben az Aletheia végezte a munka érdemi részét, kettőben az emberek és az Aletheia is jelentősen hozzájárult, kettőben pedig az emberek végezték a munka nagy részét, az Aletheia pedig kismértékben segített. A szerzők megjegyzik, hogy az Aletheia jól működik olyan helyzetekben, ahol a matematikai részterületek közötti széleskörű tudás hasznos, de nincs olyan mély ismerete az egyes részterületeken belül, mint egy emberi szakértőnek. A hírek hátterében: Az AI-val segített bizonyítások eddig korlátozott, de valós sikereket értek el. A legtöbb korábbi munkában a kutatók egy LLM-et használtak egy adott tétel bizonyításához, ahelyett, hogy egy olyan általános rendszert építettek volna, mint az Aletheia. A leginkább hasonló a Google AlphaEvolve rendszere, egy ágens alapú szisztéma, amely az adatközponti számítási kapacitás ütemezésének és a mátrixszorzásnak az algoritmusait javította.
- Az Aletheia egy három részből álló ágens alapú munkafolyamat: egy generátorból, egy ellenőrzőből (verifier) és egy javítóból (reviser), melyeket a Gemini 3 Deep Think hajt meg.
- A generátor létrehoz egy kezdeti megoldást, amelyet az ellenőrző megvizsgál, és késznek, javításra szorulónak vagy kritikusan hibásnak jelöl meg.
- A javító módosítja a javításra jelölt megoldásokat, míg a generátor újraindul, ha a megoldás kritikusan hibásnak bizonyul.
- A Gemini 3 Deep Think akár 1 millió token bemenetet és 65 000 token kimenetet támogat, tartalmaz webes keresést és kódvégrehajtást is.
- A Deep Think élvonalbeli eredményeket ért el a HLE (48,4%), az ARC-AGI-2 (84,6%) és a GPQA Diamond (93,8%) teszteken.
- Az Aletheia 212 megoldatlan Erdős-problémával próbálkozott, amiből 13 helyes választ adott a szándékolt értelmezés szerint, ebből 4 teljesen újszerű megoldás volt.
- A rendszer jelenleg a Gemini alkalmazáson keresztül érhető el Google AI Ultra előfizetéssel, vagy API-n keresztül korai hozzáféréssel.
Miért fontos?
Az ágens alapú rendszerek hasznos matematikai eszközökké válnak, amelyek a matematikusokkal együttműködve segíthetnek új módszerek, útitervek és hasonlók kidolgozásában. Ha egy ágens ereje – mint az Aletheia esetében – a tudás szélességében rejlik, felgyorsíthatja a sok részterületet érintő problémák kutatását, miközben az emberi szakértők továbbra is elmélyedhetnek kedvenc területeiken. Erdős közel 1200 problémát javasolt; kevesebb mint 500-at oldottak meg eddig, de az AI modellek csak az elmúlt hat hónapban mintegy 100 megoldásában segítettek. ---