Nagy Nyelvi Modellek (LLM-ek)
A Z.ai GLM 5.1 alkalmazkodik a hosszú távú feladatokhoz
A Z.ai frissítette zászlóshajó nyílt súlyozású nagy nyelvi modelljét, hogy akár nyolc órán keresztül önállóan dolgozzon egyes feladatokon. A GLM-5.1 kódolási és ágens-alapú feladatokra lett tervezve. A Z.ai szerint a modell kipróbálhat egy megközelítést, értékelheti az eredményt, és módosíthatja stratégiáját, ha az eredmények nem megfelelőek, ezt a hurkot több százszor megismételve ahelyett, hogy korán feladná. A Z.ai nem tett közzé a GLM-5.1-re specifikus technikai jelentést, amely úgy tűnik, a GLM-5 alapvető architektúráját, figyelmi mechanizmusát, előképzését és bemeneti/kimeneti méretkorlátait követi. A kulcsfontosságú javulás a hosszú távú feladatok folyamatos produktivitása. Míg a GLM-5 és sok más modell egy bizonyos token-kereten belül állítja elő a végső kimenetet, vagy amíg meg nem állapítja, hogy a további érvelés nem változtatja meg az eredményeket, a GLM-5.1 a tervezésen, végrehajtáson, köztes eredmények értékelésén és a saját megközelítésének értékelésén keresztül ciklikusan halad, amíg a feladatot befejezettnek nem ítéli. Ha a jelenlegi megközelítést hiányosnak találja, stratégiát vált, néha több ezer eszközhívást használva több órán keresztül a Z.ai tesztjeiben. A vállalat elmondta, hogy optimalizálta a GLM-5.1-et az ágens-alapú kódolásra, de nem részletezte, hogyan. A GLM-5.1 erős kódolási eredményeket ért el a nyílt súlyozású modellek között, de lemaradt a zárt modellek mögött az érvelési és matematikai tesztekben. A Z.ai jelentősen magasabbra árazta a GLM-5.1-et, mint elődjét. API token árai körülbelül 40 százalékkal magasabbak, és a kódolási csomag előfizetések nagyjából duplájára nőttek. API-ja olcsóbb marad a hasonló szabadalmaztatott modellekénél (1,40 dollár millió bemeneti tokenenként szemben a Claude Opus 4.6 5 dollárjával millióként), de a különbség szűkül.
- Bemenet/kimenet: Szöveg be (akár 200 000 token), szöveg ki (akár 128 000 token)
- Architektúra: Mixture-of-experts transformer, összesen 754 milliárd paraméter, tokenenként 40 milliárd aktív paraméter
- Funkciók: Érvelés, függvényhívás, strukturált kimenet
- Teljesítmény: Legmagasabb pontszámú open-weights modell az Artificial Analysis Intelligence Indexen, harmadik az Arena Code ranglistán, vezette a SWE-Bench Pro-t (a Z.ai tesztjeiben)
- Elérhetőség/ár: A súlyok elérhetőek HuggingFace-en keresztül kereskedelmi és nem kereskedelmi használatra MIT licenc alatt, API 1,40$/0,26$/4,40$ millió bemeneti/gyorsítótárazott/kimeneti tokenenként, kódolási csomagok 48,60$-tól 432$-ig negyedévente
- Közzé nem tett: Specifikus architektúra, képzési adatok és módszerek.
- Az Artificial Analysis Intelligence Indexén a GLM-5.1 érvelési módra állítva (51) a legmagasabb pontszámot érte el az open-weight modellek között, de lemaradt a saját fejlesztésű Gemini 3.1 Pro Preview érvelésre állítva és a GPT-5.4 xhigh érvelésre állítva (egyenlőre 57-en állnak) valamint a Claude Opus 4.6 max érvelésre állítva (53) mögött.
- Az Arena Code ranglistáján a GLM-5.1 a megjelenését követő napokban elérte az 1530 Elo-t, ezzel harmadik helyre került a Claude Opus 4.6 (1542 Elo) és a Claude Opus 4.6 érvelésre állítva (1548 Elo) mögött.
- A Z.ai saját tesztjeiben a GLM-5.1 vezette a SWE-Bench Pro-t, egy GitHub-ról származó valós szoftverfejlesztési problémák tesztjét, 58,4 százalékot elérve a GPT-5.4 (57,7 százalék), a Claude Opus 4.6 (57,3 százalék) és a Gemini 3.1 Pro (54,2 százalék) ellenében.
- A CyberGym-en, amely a kiberbiztonsági érvelést teszteli, a GLM-5.1 (68,7) érte el a legmagasabb pontszámot a Z.ai által tesztelt modellek között – a Claude Mythos (83,1 az Anthropic jelentése szerint) megjelenése előtt –, beleértve a Claude Opus 4.6-ot (66,6) és a GPT-5.4-et (66,3).
- A KernelBench Level 3-on, amely azt méri, hogy egy modell mennyire képes felgyorsítani egy grafikus feldolgozó egységen futó gépi tanulási kódot, a Z.ai a GLM-5.1-et (3,6x) a Claude Opus 4.6 (4,2x) mögött mérte.
- A GLM-5.1 nagyobb mértékben maradt el a szabadalmaztatott modellektől az érvelési és matematikai teszteken. Például a GPQA Diamond teszten a GLM-5.1 (86,2 százalékos pontosság) alulteljesítette a Gemini 3.1 Pro-t (94,3 százalékos pontosság). Az AIME 2026 verseny matematikai feladatain a GLM-5.1 (95,3 százalék) lemaradt a GPT-5.4 (98,7 százalék) mögött.
Miért fontos?
Az önállóan, percek helyett órákig tartó munkavégzés képessége az LLM-verseny egyre növekvő területe. Az AI ágensek által önállóan végrehajtott feladatok hossza körülbelül hét hónaponként megduplázódik a METR, egy független tesztelő szervezet szerint, és az Anysphere Cursor integrált fejlesztési környezete egy hétig futtatott ágensek raját. Azonban a tartós teljesítmény tesztelésére tervezett benchmarkok, mint például a SWE-EVO, azt mutatják, hogy még a legjobb modellek is csak körülbelül 25 százalékban végeznek el sikeresen hosszú távú kódolási feladatokat.