AI HÍREK
Az xAI kiadta a Grok 4-et, amely vezető teljesítményt nyújt a PhD-szintű benchmarkokon
Megjelent a Grok 4, amely két különböző változatban érhető el: egy alapmodell és egy „heavy” multi-ágens rendszer formájában. Az alap Grok 4 új rekordokat állított fel olyan benchmarkokon, mint a Humanity’s Last Exam (HLE), amely PhD-szintű problémákra fókuszál; 25,4%-ot ért el a Gemini 21,6%-ával szemben. A multi-ágens „heavy” verzió még magasabb, 44%-os pontszámot ért el ugyanezen a vizsgán. Bár a modell jelentős fejlődést mutat a vizuális feladatok és a logikai érvelés terén, a jövő hónapban további változatok, köztük egy speciális kódoló modell várható. A chat alkalmazás jelenleg havi 30 dolláros előfizetést igényel, és bár az API árazása versenyképes a Claude 3.5 Sonnet-tel, a korai elemzések szerint bizonyos benchmarkok lefuttatása jóval drágább lehet.
- Az alap Grok 4 25,4%-ot ért el a Humanity’s Last Exam teszten, megelőzve a második legjobb Gemini 21,6%-át
- A „heavy” multi-ágens verzió 44%-ot ért el a HLE benchmarkokon
- 16%-ot ért el az ARC-AGI-2 teszten, megduplázva a második legjobb modell (Opus 4, 8%) teljesítményét
- Hamarosan érkezik a speciális kódoló modell és a hangalapú verzió frissítése
- Az API árazása hasonló a Sonnet 4-hez, de a benchmark futtatások akár ötször többe is kerülhetnek
Miért fontos?
Az xAI fejlődésének üteme figyelemre méltó, tekintve a piacra való késői belépését. Egy olyan élvonalbeli alternatíva fenntartása, mint a Grok, versenyhelyzetben tartja a többi nagy AI labort, és a felhasználók számára is életképes tartalék opciót jelent, ha a piacvezetők nem tudnának innoválni. ---