MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Z.ai GLM 5.1 alkalmazkodik a hosszú távú feladatokhoz

A Z.ai frissítette zászlóshajó nyílt súlyozású nagy nyelvi modelljét, hogy akár nyolc órán keresztül önállóan dolgozzon egyes feladatokon. A GLM-5.1 kódolási és ágens-alapú feladatokra lett tervezve. A Z.ai szerint a modell kipróbálhat egy megközelítést, értékelheti az eredményt, és módosíthatja stratégiáját, ha az eredmények nem megfelelőek, ezt a hurkot több százszor megismételve ahelyett, hogy korán feladná. A Z.ai nem tett közzé a GLM-5.1-re specifikus technikai jelentést, amely úgy tűnik, a GLM-5 alapvető architektúráját, figyelmi mechanizmusát, előképzését és bemeneti/kimeneti méretkorlátait követi. A kulcsfontosságú javulás a hosszú távú feladatok folyamatos produktivitása. Míg a GLM-5 és sok más modell egy bizonyos token-kereten belül állítja elő a végső kimenetet, vagy amíg meg nem állapítja, hogy a további érvelés nem változtatja meg az eredményeket, a GLM-5.1 a tervezésen, végrehajtáson, köztes eredmények értékelésén és a saját megközelítésének értékelésén keresztül ciklikusan halad, amíg a feladatot befejezettnek nem ítéli. Ha a jelenlegi megközelítést hiányosnak találja, stratégiát vált, néha több ezer eszközhívást használva több órán keresztül a Z.ai tesztjeiben. A vállalat elmondta, hogy optimalizálta a GLM-5.1-et az ágens-alapú kódolásra, de nem részletezte, hogyan. A GLM-5.1 erős kódolási eredményeket ért el a nyílt súlyozású modellek között, de lemaradt a zárt modellek mögött az érvelési és matematikai tesztekben. A Z.ai jelentősen magasabbra árazta a GLM-5.1-et, mint elődjét. API token árai körülbelül 40 százalékkal magasabbak, és a kódolási csomag előfizetések nagyjából duplájára nőttek. API-ja olcsóbb marad a hasonló szabadalmaztatott modellekénél (1,40 dollár millió bemeneti tokenenként szemben a Claude Opus 4.6 5 dollárjával millióként), de a különbség szűkül.
Miért fontos?

Az önállóan, percek helyett órákig tartó munkavégzés képessége az LLM-verseny egyre növekvő területe. Az AI ágensek által önállóan végrehajtott feladatok hossza körülbelül hét hónaponként megduplázódik a METR, egy független tesztelő szervezet szerint, és az Anysphere Cursor integrált fejlesztési környezete egy hétig futtatott ágensek raját. Azonban a tartós teljesítmény tesztelésére tervezett benchmarkok, mint például a SWE-EVO, azt mutatják, hogy még a legjobb modellek is csak körülbelül 25 százalékban végeznek el sikeresen hosszú távú kódolási feladatokat.

Eredeti forrás megtekintése (angol) →