OPENAI
A Hugging Face új benchmarkokkal frissítette az Open LLM rangsort
A Hugging Face nemrég mutatta be az Open LLM rangsorának új frissítését, új benchmarkokat és értékelési módszereket adva hozzá, hogy kezelje az LLM-ek teljesítménynövekedésének utóbbi időben tapasztalt megtorpanását.
- A rangsor mostantól hat új benchmarkot tartalmaz, amelyeket úgy terveztek, hogy nagyobb kihívást jelentsenek és kevésbé legyenek kitéve az adatszennyezésnek (contamination).
- A kezdeti rangsor szerint a Qwen2-72B-Instruct vezeti a mezőnyt, melyet a Meta-féle Llama-3-70B-Instruct és a Mixtral 8×22b követ.
- Egy új, normalizált pontozási rendszer korrigálja az alapteljesítményt, igazságosabb összehasonlítást biztosítva a különböző értékelési típusok között.
- A frissítés bevezet egy „maintainer's highlight” kategóriát és egy közösségi szavazórendszert is a legfontosabb modellek priorizálása érdekében.
Miért fontos?
Ahogy az LLM-ek a legtöbb feladatban megközelítik az emberi szintű teljesítményt, az értékelésükre szolgáló új módszerek megtalálása egyre nehezebb – és egyben egyre kritikusabb is. Ez a megújulás segíti a kutatókat és fejlesztőket a célzottabb javítások felé, és árnyaltabb képet ad a modellek képességeiről. ---