Openai

A Hugging Face új benchmarkokkal frissítette az Open LLM rangsort

2024. június 27. · MI Történik? · 1 perc olvasás

A Hugging Face nemrég mutatta be az Open LLM rangsorának új frissítését, új benchmarkokat és értékelési módszereket adva hozzá, hogy kezelje az LLM-ek teljesítménynövekedésének utóbbi időben tapasztalt megtorpanását.

A rangsor mostantól hat új benchmarkot tartalmaz, amelyeket úgy terveztek, hogy nagyobb kihívást jelentsenek és kevésbé legyenek kitéve az adatszennyezésnek (contamination).
A kezdeti rangsor szerint a Qwen2-72B-Instruct vezeti a mezőnyt, melyet a Meta-féle Llama-3-70B-Instruct és a Mixtral 8×22b követ.
Egy új, normalizált pontozási rendszer korrigálja az alapteljesítményt, igazságosabb összehasonlítást biztosítva a különböző értékelési típusok között.
A frissítés bevezet egy „maintainer's highlight” kategóriát és egy közösségi szavazórendszert is a legfontosabb modellek priorizálása érdekében.

Miért fontos?

Ahogy az LLM-ek a legtöbb feladatban megközelítik az emberi szintű teljesítményt, az értékelésükre szolgáló új módszerek megtalálása egyre nehezebb – és egyben egyre kritikusabb is. Ez a megújulás segíti a kutatókat és fejlesztőket a célzottabb javítások felé, és árnyaltabb képet ad a modellek képességeiről. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Sam Altman az OpenAI tőzsdei bevezetését az öntovábbfejlesztő AI fejlődésétől tenné függővé

3 napja

Az OpenAI a fejlesztés egy új, „harmadik szakaszába” lépett

5 napja

Hamarosan érkezik az OpenAI „szuperalkalmazása”

6 napja

Tudj meg többet

OpenAI Sora: AI videógenerálás – minden, amit tudni kell

OpenAI: A ChatGPT mögötti cég – történet, termékek, jövőkép