AI Hírek

Az xAI kiadta a Grok 4-et, amely vezető teljesítményt nyújt a PhD-szintű benchmarkokon

2025. július 10. · MI Történik? · 1 perc olvasás

Megjelent a Grok 4, amely két különböző változatban érhető el: egy alapmodell és egy „heavy” multi-ágens rendszer formájában. Az alap Grok 4 új rekordokat állított fel olyan benchmarkokon, mint a Humanity’s Last Exam (HLE), amely PhD-szintű problémákra fókuszál; 25,4%-ot ért el a Gemini 21,6%-ával szemben. A multi-ágens „heavy” verzió még magasabb, 44%-os pontszámot ért el ugyanezen a vizsgán. Bár a modell jelentős fejlődést mutat a vizuális feladatok és a logikai érvelés terén, a jövő hónapban további változatok, köztük egy speciális kódoló modell várható. A chat alkalmazás jelenleg havi 30 dolláros előfizetést igényel, és bár az API árazása versenyképes a Claude 3.5 Sonnet-tel, a korai elemzések szerint bizonyos benchmarkok lefuttatása jóval drágább lehet.

Az alap Grok 4 25,4%-ot ért el a Humanity’s Last Exam teszten, megelőzve a második legjobb Gemini 21,6%-át
A „heavy” multi-ágens verzió 44%-ot ért el a HLE benchmarkokon
16%-ot ért el az ARC-AGI-2 teszten, megduplázva a második legjobb modell (Opus 4, 8%) teljesítményét
Hamarosan érkezik a speciális kódoló modell és a hangalapú verzió frissítése
Az API árazása hasonló a Sonnet 4-hez, de a benchmark futtatások akár ötször többe is kerülhetnek

Miért fontos?

Az xAI fejlődésének üteme figyelemre méltó, tekintve a piacra való késői belépését. Egy olyan élvonalbeli alternatíva fenntartása, mint a Grok, versenyhelyzetben tartja a többi nagy AI labort, és a felhasználók számára is életképes tartalék opciót jelent, ha a piacvezetők nem tudnának innoválni. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A SemiAnalysis feltárta: az AI laborok ezreket veszítenek a havi felhasználói előfizetéseken

1 napja

Esik az Oracle árfolyama a bevételnövekedés ellenére az AI kiadásokkal kapcsolatos aggodalmak miatt

2 napja

Az OpenAI drasztikus API árcsökkentést fontolgat és az Ona infrastruktúra-startup felvásárlását tervezi

2 napja

Tudj meg többet

Grok: Elon Musk AI chatbotja – minden, amit tudni kell