A Gemini Flash 2.0 és a GPT-4o vezeti az új AI ágens ranglistát

2026. május 24. · MI Történik? · 2 perc olvasás

Új korszakot nyithat a mesterséges intelligencia mérésében a Galileo Labs legfrissebb kezdeményezése. A vállalat egy olyan új AI ágens ranglistát indított el, amely kifejezetten azt vizsgálja és méri, hogy a különböző modellek mennyire hatékonyan képesek kezelni a valós eszközinterakciókat a gyakorlatban. Az első értékelés során a Google Gemini 2.0 és az OpenAI GPT-4o modellek azonnal az élmezőnyben debütáltak. A legnagyobb sikert azonban a Google hozta el: a Gemini Flash 2.0 végzett az abszolút első helyen egy rendkívül meggyőző, 0,938-as pontszámmal. Ez az eredmény azért is kiemelkedő, mert a Flash verzió képes volt teljesen túlszárnyalni a piacon lévő jóval drágább versenytársait, miközben minden egyes vizsgált benchmarkon kiváló teljesítményt nyújtott.

A Galileo Labs által elvégzett átfogó tesztelés során összesen 17 vezető LLM teljesítményét értékelték 14 különböző benchmark alapján. A szakemberek olyan kritikus fontosságú területeket vizsgáltak, mint az eszközhasználati és eszközválasztási tesztek, a hosszú kontextus kezelése, valamint a komplex interakciók lebonyolítása. A ranglista rávilágított arra is, hogy az open-source modellek rohamtempóban zárkóznak fel a zárt forráskódú óriásokhoz. Jó példa erre a Mistral legújabb Small kiadása, amely a prémium kategóriás, drágább ajánlatokhoz rendkívül hasonló pontszámokat ért el, ám lényegesen alacsonyabb áron kínál alternatívát. Érdekesség, hogy a mostanában sokat emlegetett DeepSeek V3 és R1 modellei teljesen hiányoztak a mostani tesztelésből, aminek az volt a prózai oka, hogy a mérés pillanatában még hiányzott belőlük a function calling támogatás. Amint ez a képesség elérhetővé válik, ezek a modellek is bekerülnek majd az értékelésbe.

Bár az AI ágensek fejlesztése jelenleg még egy korai szakaszban jár, a tech szektorban ez a terület kapta a legkiemeltebb fókuszt 2025-ben. Ezen specifikus képességek pontos mérése és objektív összehasonlítása meghatározó iránytű lesz a jövőbeli fejlesztések és üzleti döntések számára. A Galileo Labs tesztjei világosan megmutatják a piac szereplőinek, hogy az ideális AI ágens kiválasztása ma már korántsem csupán a jól csengő márkanevektől vagy a magas árazástól függ. A döntés sokkal inkább a felhasználó konkrét, egyedi felhasználási módján múlik, hiszen a különböző modellek más-más részfeladatokban mutathatnak egyedi erősségeket.

A ranglista 17 vezető LLM-et értékelt 14 benchmark alapján, beleértve az eszközhasználati és -választási teszteket, a hosszú kontextust, a komplex interakciókat és egyebeket.
A Flash 2.0 végzett az élen 0,938-as pontszámmal, túlszárnyalva drágább versenytársait, miközben minden benchmarkon kiválóan teljesített.
Az open-source modellek zárkóznak fel: a Mistral legújabb Small kiadása a prémium ajánlatokhoz hasonló pontszámokat ért el alacsonyabb áron.
A DeepSeek V3 és R1 modelljei hiányoztak a tesztelésből a function calling támogatás hiánya miatt, de bekerülnek, amint ez a képesség elérhetővé válik.

Miért fontos?

Az ágensek még korai szakaszban járnak, de a szektor kiemelt fókuszban van 2025-ben, és ezen képességek mérése meghatározó iránytű lesz a jövőben. A tesztek azt mutatják, hogy az ágens választása a felhasználó konkrét felhasználási módjától függhet, nem csupán a márkanevektől vagy az árazástól. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Google DeepMind elindította a bioresiliencia programját a járványügyi válaszadás érdekében

7 órája

Tervezzen meg bármilyen utazást gyorsan az OpenAI új GPT-Live funkciójával

9 órája

Hogyan készítsünk napi munkaösszefoglalót a ChatGPT Work segítségével

11 órája

Tudj meg többet

ChatGPT vs Claude vs Gemini - Melyiket válaszd 2026-ban?

Hogyan tanulj nyelvet AI-val? Gyakorlati útmutató ChatGPT-vel és Gemini-vel