MAI AI HÍREK
Az xAI kiadta a Grok 3 zászlóshajó modellt, amely vezető eredményeket ért el a benchmark teszteken
Elon Musk AI startupja hivatalosan is elindította zászlóshajó modellsorozatát, a Grok 3-at, amelyet egy masszív, 200 000 GPU-s szuperklaszteren tanítottak. A modell állítólag tízszer akkora számítási kapacitással rendelkezik, mint elődje, a Grok 2. A Grok 3 számos specializált funkciót vezet be, köztük a „Think Mode”-ot a pontosabb matematikai számításokhoz, és a „Big Brain Mode”-ot a komplex érvelési feladatokhoz. Emellett tartalmazza a DeepSearch funkciót is, amellyel a modell az interneten és az X platformon egyaránt valós idejű információk után kutathat.
Amikor Elon Musk a Grok 3-at a „Föld legokosabb AI-jának” nevezte, egyes fanyalgók ezt a szokásos Musk-féle hype-nak könyvelték el. Úgy tűnik azonban, hogy az xAI beváltotta az alapító ígéretét. A modell több benchmark teszten is felülmúlta a szektor vezetőit – az OpenAI GPT-4o-ját, a Claude 3.5-öt, a DeepSeek V3-at és a Gemini 2 Pro-t –, és az első modell lett, amely elérte az 1400-as pontszámot a Chatbot Arena ranglistáján. Még a Grok 3-mini is komoly erőt mutatott, hozva vagy megverve a többi modellt a matek, tudományos és kódolási teszteken. Az OpenAI társalapítója, Andrej Karpathy egy kétórás tesztkörre vitte a Grok 3-at, és korai ítélete szerint a modell kiválóan teljesít a bonyolult kódolási, matematikai és kutatási feladatokban, de még mindig rossz vicceket mesél, hallucinál webes linkeket, és meglepően óvatos az etikai vitákban vagy az X-en található forrásmegjelölések kapcsán.
- Think Mode: A Grok 3 kétszer is ellenőrzi a matematikai műveleteit a pontosság érdekében.
- Big Brain Mode: Nagy teljesítményű érvelési eszköz összetett, több lépésből álló problémákhoz.
- DeepSearch: Valós idejű információkért és összefoglalókért pásztázza a webet és az X-et.
- Voice Mode: Valószínűleg jövő héten indul, lehetővé téve a hangalapú kommunikációt.
- Az első modell, amely valaha elérte az 1400-as pontszámot a Chatbot Arena ranglistáján.
- Számos benchmark teszten megelőzte a GPT-4o, Claude 3.5, DeepSeek V3 és Gemini 2 Pro modelleket.
Miért fontos?
A megjelenés azt sugallja, hogy a skálázási törvények továbbra is érvényesek, mivel a hatalmas, 200 000 GPU-s Colossus szuperklaszter új magasságokba emelte a modellt. Az xAI fejlődési üteme példátlan: mindössze két éve léptek piacra, és már most verik a befutott riválisokat. A felhasználói bázis megszerzése azonban továbbra is kérdéses, mivel a Grok-nak egyértelmű gyakorlati előnyöket kell mutatnia ahhoz, hogy elcsábítsa a felhasználókat a ChatGPT 300 milliós táborából.