AI Hírek

Az xAI kiadta a Grok 3 zászlóshajó modellt, amely vezető eredményeket ért el a benchmark teszteken

2025. február 18. · MI Történik? · 2 perc olvasás

Elon Musk AI startupja hivatalosan is elindította zászlóshajó modellsorozatát, a Grok 3-at, amelyet egy masszív, 200 000 GPU-s szuperklaszteren tanítottak. A modell állítólag tízszer akkora számítási kapacitással rendelkezik, mint elődje, a Grok 2. A Grok 3 számos specializált funkciót vezet be, köztük a „Think Mode”-ot a pontosabb matematikai számításokhoz, és a „Big Brain Mode”-ot a komplex érvelési feladatokhoz. Emellett tartalmazza a DeepSearch funkciót is, amellyel a modell az interneten és az X platformon egyaránt valós idejű információk után kutathat.

Amikor Elon Musk a Grok 3-at a „Föld legokosabb AI-jának” nevezte, egyes fanyalgók ezt a szokásos Musk-féle hype-nak könyvelték el. Úgy tűnik azonban, hogy az xAI beváltotta az alapító ígéretét. A modell több benchmark teszten is felülmúlta a szektor vezetőit – az OpenAI GPT-4o-ját, a Claude 3.5-öt, a DeepSeek V3-at és a Gemini 2 Pro-t –, és az első modell lett, amely elérte az 1400-as pontszámot a Chatbot Arena ranglistáján. Még a Grok 3-mini is komoly erőt mutatott, hozva vagy megverve a többi modellt a matek, tudományos és kódolási teszteken. Az OpenAI társalapítója, Andrej Karpathy egy kétórás tesztkörre vitte a Grok 3-at, és korai ítélete szerint a modell kiválóan teljesít a bonyolult kódolási, matematikai és kutatási feladatokban, de még mindig rossz vicceket mesél, hallucinál webes linkeket, és meglepően óvatos az etikai vitákban vagy az X-en található forrásmegjelölések kapcsán.

Think Mode: A Grok 3 kétszer is ellenőrzi a matematikai műveleteit a pontosság érdekében.
Big Brain Mode: Nagy teljesítményű érvelési eszköz összetett, több lépésből álló problémákhoz.
DeepSearch: Valós idejű információkért és összefoglalókért pásztázza a webet és az X-et.
Voice Mode: Valószínűleg jövő héten indul, lehetővé téve a hangalapú kommunikációt.
Az első modell, amely valaha elérte az 1400-as pontszámot a Chatbot Arena ranglistáján.
Számos benchmark teszten megelőzte a GPT-4o, Claude 3.5, DeepSeek V3 és Gemini 2 Pro modelleket.

Miért fontos?

A megjelenés azt sugallja, hogy a skálázási törvények továbbra is érvényesek, mivel a hatalmas, 200 000 GPU-s Colossus szuperklaszter új magasságokba emelte a modellt. Az xAI fejlődési üteme példátlan: mindössze két éve léptek piacra, és már most verik a befutott riválisokat. A felhasználói bázis megszerzése azonban továbbra is kérdéses, mivel a Grok-nak egyértelmű gyakorlati előnyöket kell mutatnia ahhoz, hogy elcsábítsa a felhasználókat a ChatGPT 300 milliós táborából.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az IBM vezérigazgatója szerint az AI-infrastruktúra kiépítése hátrányosan érinti a vállalati szoftvereladásokat

19 órája

Az OpenAI hordozható, okos AI-hangszórót dobna piacra

1 napja

A PrismML bemutatta az eddigi legnagyobb, iPhone-on futtatható AI-modellt

1 napja

Tudj meg többet

Grok: Elon Musk AI chatbotja – minden, amit tudni kell