Machine Learning Research
A Google kiadja a Gemini 3.1 Pro-t, amely vezeti az Intelligence Index ranglistákat
A Google frissítette zászlóshajó Gemini modelljét, amely több teljesítménymérő teszten is az élre került, miközben ár-érték arányban alulmúlja versenytársait. A Google a Gemini 3.1 Pro Preview-t elődje, a Gemini 3 Pro Preview árával megegyezően indította el. A Gemini 3.1 Pro Preview az alapja a Gemini 3 Deep Think legutóbbi teljesítménynövekedésének, amely egy speciális érvelési mód, független az API-n keresztül elérhető három érvelési szinttől.
A Google kevés részletet árult el a Gemini 3.1 Pro Preview-ról. A modell egy ritka Mixture-of-Experts (MoE) transzformátor, amelyet az internetről gyűjtött szövegeken, kódokon, képeken, hangokon és videókon, valamint licencelt anyagokon, Google felhasználói adatokon és szintetikus adatokon tanítottak be. Megerősítéses tanulással (reinforcement learning) finomhangolták olyan adatkészleteken, amelyek többlépcsős érvelést, problémamegoldást és tételek bizonyítását tartalmazták. A modellkártyája a Gemini 3 Pro modellkártyájához irányítja az olvasókat.
A Gemini 3.1 Pro Preview számos legmodernebb (state-of-the-art) mérőszámot ért el az Artificial Analysis által végzett teszteken. Azonban elmaradt néhány ágens-szerű viselkedést és felhasználói preferenciát vizsgáló mérésben. Egyes teszteredmények nem határozzák meg az érvelési beállítást; a Gemini 3.1 Pro Preview API-hívásai alapértelmezés szerint "high reasoning" (magas szintű érvelés) módban futnak.
- Input/output: Szöveg, képek, PDF-ek, hang, videó bemenet (akár 1 millió token), szöveges kimenet (akár 64 000 token, 108,6 token másodpercenként)
- Architektúra: Mixture-of-Experts transzformátor
- Funkciók: Eszközhasználat (Google keresés, Python kód futtatás, fájlkeresés, függvényhívás), strukturált kimenetek, állítható érvelési szintek (alacsony, közepes, magas)
- Teljesítmény: Legjobb eredményt ért el az ARC-AGI-2, GPQA Diamond, Humanity’s Last Exam, MCP Atlas, BrowseComp, Terminal-Bench 2.0, MathArena Apex és MMLU-Pro teszteken.
- Elérhetőség/ár: Integrálva a Google AI Studio-ba, Vertex AI-ba, Gemini CLI-be és harmadik féltől származó eszközökbe, beleértve a Microsoft Visual Studio-t és a GitHub CoPilot-ot.
- API árazás: 2$ / 0,20$ / 12$ per millió input/cached/output token a 200k token alatti kontextusoknál; 4$ / 0,40$ / 18$ a 200k feletti kontextusoknál.
- Tudásbázis zárása: 2025. január
- Összehasonlítás: Megelőzte a Claude Opus 4.6-ot és a GPT-5.2-t az Artificial Analysis Intelligence Indexen, miközben jelentősen kevesebbe kerül.
Miért fontos?
A Gemini 3.1 Pro javulása inkább a modellminőség fejlődéséből, semmint az inferencia (következtetés) közbeni plusz számítási kapacitásból ered: az Artificial Analysis Intelligence Index kitöltésekor nagyjából ugyanannyi tokent fogyasztott, mint elődje, mégis jelentősen magasabb pontszámot ért el. Ez azt sugallja, hogy a modellek finomítása még mindig jelentős teljesítménynövekedést eredményezhet az inferencia költségek növelése nélkül. ---