Fej-fej mellett a Llama-3 és a GPT-4

2026. május 23. · MI Történik? · 3 perc olvasás

Az Lmsys legújabb elemzése rávilágított arra, hogy a mesterséges intelligencia piacán a nyílt forráskódú fejlesztések minden eddiginél közelebb kerültek a zárt, kereskedelmi modellek szintjéhez. A Meta által közreadott Llama-3 70B modell szereplése a Chatbot Arena ranglistáján komoly meglepetést okozott a szakmának, ugyanis a felhasználói visszajelzések alapján ez az open-source megoldás már képes közvetlenül versenybe szállni az OpenAI piacvezető GPT-4 modelljével. Több mint 70 000 anonim Arena Battle teszt során leadott szavazat alapján a Llama-3 jelenleg a legmagasabban jegyzett nyílt forráskódú LLM, ami jól mutatja a technológia elképesztő fejlődési ütemét és a nyílt hozzáférésű rendszerek létjogosultságát a legmagasabb szinten is.

A részletesebb vizsgálatok azonban rávilágítanak arra is, hogy a modellek közötti különbségek a specifikus feladatoknál válnak igazán láthatóvá. A Llama-3 különösen erősnek bizonyult az ötletelést és kreativitást igénylő feladatokban, mint amilyen a brainstorming vagy a különféle szöveges tartalmak írása. A felhasználók visszajelzései szerint a Meta modellje barátságosabb, közvetlenebb és kevésbé mesterkélt stílusban válaszol, mint a riválisai, ami kulcsszerepet játszott az Arena-ban aratott győzelmei során. Ugyanakkor a technikai jellegű kihívások, például a komplex matematikai levezetések, a precíz kódolás vagy a többnyelvű fordítás terén a GPT-4 és a hasonló csúcsmodellek még mindig megőrizték dominanciájukat. Ez azt jelzi, hogy míg a természetes nyelvhasználatban a nyílt forráskód már szinte beérte a konkurenciát, a mély logikai és mérnöki képességek csiszolása még további finomhangolást igényel.

Ez az összehasonlítás azért is rendívül fontos mérföldkő az AI iparágban, mert rávilágít a fejlesztések demokratizálódására. Eddig az volt az általános vélekedés, hogy a legfejlettebb képességek csak a tech óriások, például a Google vagy az Anthropic zárt rendszereiben és hatalmas API költségek mellett érhetőek el. A Llama-3 sikere azonban bizonyítja, hogy az open-source közösség képes világszínvonalat nyújtani, ráadásul mindezt úgy érték el, hogy a Meta legnagyobb, minden bizonnyal még potensebb modellje még várat magára. Az Lmsys elemzése azért is hiánypótló, mert az általános benchmarking tesztekkel ellentétben a valós felhasználói élményt helyezi előtérbe, feltárva azokat a finom stilisztikai részleteket, amelyek a mindennapi használat során meghatározzák egy chatbot sikerét.

Összességében a Llama-3 teljesítménye azt sugallja, hogy a jövőben a választás a modellek között nem feltétlenül csak a puszta számítási kapacitás alapján dől majd el, hanem a stílus és a specifikus alkalmazási terület lesz a meghatározó. A nyílt forráskódú közösség számára ez a rangsorolás hatalmas validációt jelent, a felhasználók pedig profitálnak a fokozódó piaci versenyből. Ahogy a Meta tovább bővíti a portfólióját, az ingyenesen elérhető technológiák egyre inkább képesek lesznek kiváltani a drága, előfizetéses szolgáltatásokat a legtöbb kreatív és üzleti feladat során, alapjaiban írva át az AI-piac jelenlegi erőviszonyait.

A Llama-3 a legjobb open-source modell az Lmsys ranglistáján, több mint 70 000 felhasználói szavazattal az Arena Battle teszteken.
A Meta modellje különösen jól teljesít az ötletelést (brainstorming) és az írást igénylő feladatokban, de elmarad a legjobb versenytársaktól matematikában, kódolásban és fordításban.
Az Lmsys megjegyezte, hogy a Llama-3 stílusa barátságosabb és közvetlenebb, mint a riválisaié, ami az Arena-ban aratott győzelmei során is megmutatkozott.

Miért fontos?

A Llama-3 képessége, hogy bizonyos területeken felvegye a versenyt a csúcsmodellekkel, az open-source gyors fejlődésének bizonyítéka – és mindez úgy, hogy a Meta legnagyobb modellje még várat magára. A részletesebb összehasonlítás olyan hasznos részleteket is feltár, amelyek az általánosabb modell-benchmarking során gyakran elvesznek.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Autoresearch ágens demonstrálta a rekurzív önfejlesztést

13 órája

Építsen kódolás nélküli hangügynököt ügyfélfelvételhez a Grok segítségével

19 órája

Az Anthropic kutatása szerint Claude személyisége nyelvenként változik

tegnap

Tudj meg többet

AI mellékállás: 10 ötlet amit a főállásod mellett is elkezdhetsz