MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Gemini Flash 2.0 és a GPT-4o vezeti az új AI ágens ranglistát

Új korszakot nyithat a mesterséges intelligencia mérésében a Galileo Labs legfrissebb kezdeményezése. A vállalat egy olyan új AI ágens ranglistát indított el, amely kifejezetten azt vizsgálja és méri, hogy a különböző modellek mennyire hatékonyan képesek kezelni a valós eszközinterakciókat a gyakorlatban. Az első értékelés során a Google Gemini 2.0 és az OpenAI GPT-4o modellek azonnal az élmezőnyben debütáltak. A legnagyobb sikert azonban a Google hozta el: a Gemini Flash 2.0 végzett az abszolút első helyen egy rendkívül meggyőző, 0,938-as pontszámmal. Ez az eredmény azért is kiemelkedő, mert a Flash verzió képes volt teljesen túlszárnyalni a piacon lévő jóval drágább versenytársait, miközben minden egyes vizsgált benchmarkon kiváló teljesítményt nyújtott.

A Galileo Labs által elvégzett átfogó tesztelés során összesen 17 vezető LLM teljesítményét értékelték 14 különböző benchmark alapján. A szakemberek olyan kritikus fontosságú területeket vizsgáltak, mint az eszközhasználati és eszközválasztási tesztek, a hosszú kontextus kezelése, valamint a komplex interakciók lebonyolítása. A ranglista rávilágított arra is, hogy az open-source modellek rohamtempóban zárkóznak fel a zárt forráskódú óriásokhoz. Jó példa erre a Mistral legújabb Small kiadása, amely a prémium kategóriás, drágább ajánlatokhoz rendkívül hasonló pontszámokat ért el, ám lényegesen alacsonyabb áron kínál alternatívát. Érdekesség, hogy a mostanában sokat emlegetett DeepSeek V3 és R1 modellei teljesen hiányoztak a mostani tesztelésből, aminek az volt a prózai oka, hogy a mérés pillanatában még hiányzott belőlük a function calling támogatás. Amint ez a képesség elérhetővé válik, ezek a modellek is bekerülnek majd az értékelésbe.

Bár az AI ágensek fejlesztése jelenleg még egy korai szakaszban jár, a tech szektorban ez a terület kapta a legkiemeltebb fókuszt 2025-ben. Ezen specifikus képességek pontos mérése és objektív összehasonlítása meghatározó iránytű lesz a jövőbeli fejlesztések és üzleti döntések számára. A Galileo Labs tesztjei világosan megmutatják a piac szereplőinek, hogy az ideális AI ágens kiválasztása ma már korántsem csupán a jól csengő márkanevektől vagy a magas árazástól függ. A döntés sokkal inkább a felhasználó konkrét, egyedi felhasználási módján múlik, hiszen a különböző modellek más-más részfeladatokban mutathatnak egyedi erősségeket.

Miért fontos?

Az ágensek még korai szakaszban járnak, de a szektor kiemelt fókuszban van 2025-ben, és ezen képességek mérése meghatározó iránytű lesz a jövőben. A tesztek azt mutatják, hogy az ágens választása a felhasználó konkrét felhasználási módjától függhet, nem csupán a márkanevektől vagy az árazástól. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
NYT-újságíró AI segítségével, ingatlanügynök nélkül adta el házát
most
Az Anthropic megerősítette, hogy a nagyteljesítményű Mythos modell hamarosan elérhető lesz a nyilvánosság számára
most
Az ElevenLabs Music v2 lehetővé teszi a szám közbeni műfajváltást és a gyors repet
most
Tudj meg többet
Hogyan tanulj nyelvet AI-val? Gyakorlati útmutató ChatGPT-vel és Gemini-vel
Gemini a Gmail-ben és a Google Docs-ban: Így automatizáld a munkád