Machine Learning Research
A Google közzétette a Gemini 3.1 Pro Preview-t, amely vezeti az Intelligence Index rangsorait
A Google frissítette zászlóshajó Gemini modelljét, amellyel több benchmark teszten is az élre került, miközben ár-teljesítmény arányban alulmúlja versenytársait. A Google a Gemini 3.1 Pro Preview-t elődje, a Gemini 3 Pro Preview árával megegyezően indította el. A Gemini 3.1 Pro Preview az alapja a Gemini 3 Deep Think legutóbbi teljesítménynövekedésének, amely egy speciális érvelési mód, elkülönítve az API-n keresztül elérhető három érvelési szinttől. A modell egy ritka mixture-of-experts transformer, amelyet az internetről származó szövegeken, kódokon, képeken, audiókon és videókon, valamint licencelt anyagokon, Google felhasználói adatokon és szintetikus adatokon tanítottak. A finomhangolás megerősítéses tanulással (reinforcement learning) történt olyan adatkészleteken, amelyek többlépcsős érvelést, problémamegoldást és tételek bizonyítását tartalmazták. A Gemini 3.1 Pro Preview számos élvonalbeli eredményt ért el az Artificial Analysis által végzett teszteken, bár az ágensszerű viselkedés és a felhasználói preferenciák rangsorában néhány mutatóban elmaradt. Bizonyos teszteredmények forrásai nem határoznak meg érvelési beállítást; a Gemini 3.1 Pro Preview API-hívásai alapértelmezés szerint magas érvelési szintre vannak állítva.
- Támogatja a szöveg, kép, PDF, audió és videó bevitelét 1 millió tokenig, a kimenet pedig 64 000 tokenig terjedhet.
- Ritka mixture-of-experts transformer architektúrával rendelkezik, Google keresési és Python kódvégrehajtási eszközhasználattal.
- 57 ponttal az Artificial Analysis Intelligence Index élére került, megelőzve a Claude Opus 4.6-ot és a GPT-5.2-t.
- Áttörő eredményeket ért el az ARC-AGI-2, GPQA Diamond, Humanity’s Last Exam és MMLU-Pro teszteken.
- Elérhető a Google AI Studio, a Vertex AI, a Gemini alkalmazás és harmadik féltől származó eszközök, például a GitHub CoPilot révén.
- Az API árazása 2 dollár 1 millió bemeneti tokenenként a 200 000 token alatti kontextusoknál, és 4 dollár efelett.
- Az ARC-AGI-2 teszten elért teljesítménye elérte a 77,1 százalékot, ami több mint a duplája az előző verzió pontszámának.
Miért fontos?
A Gemini 3.1 Pro javulása inkább a modellminőség fejlődéséből, semmint az inferencia (következtetés) során felhasznált extra számítási kapacitásból ered: az Artificial Analysis Intelligence Index kitöltésekor nagyjából ugyanannyi tokent használt fel, mint elődje, mégis lényegesen magasabb pontszámot ért el. Ez azt sugallja, hogy a modellek finomítása továbbra is jelentős teljesítménynövekedést eredményezhet az inferencia költségeinek növelése nélkül. ---