MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A rekurzív nyelvi modellek utat mutatnak a kontextusablakon túli drámai bővítéshez

Hosszú kontextusok feldolgozásakor a nagy nyelvi modellek gyakran elveszítik a fonalat a részletekben, vagy értelmetlen szövegeket kezdenek gyártani. Kutatók a kontextus külső kezelésével csökkentették ezeket a hatásokat. Az MIT-nél Alex L. Zhang, Tim Kraska és Omar Khattab kifejlesztették a rekurzív nyelvi modelleket (RLM), amelyek könyvekben, internetes keresésekben és kódbázisokban található hosszú promptokat dolgoznak fel úgy, hogy a promptokat egy külső környezetbe helyezik ki, és programozottan kezelik őket. Egy nyelvi modell képes feldolgozni hosszú bemeneteket – akár a kontextusablakánál nagyobbakat is –, ha a bemeneti szöveget perzisztens változóként kezeli egy külső programozási környezetben. A modell kódot írhat, hogy csak a szükséges szövegrészleteket hívja le. Például kulcsszavakra kereshet, és lekérheti az azokat körülvevő bekezdéseket. A kód iteratív írása lehetővé teszi a modell számára, hogy a hosszú kontextusú feladatokat részfeladatokra bontsa, mielőtt egészében közelítené meg őket. Az RLM-ek Python-kód végrehajtásával olvasnak és manipulálnak feladatokat (a felhasználói promptot és a kapcsolódó dokumentumokat) egy egyszerű read-evaluate-print loop (REPL) környezetben. A feladatok hosszú dokumentumok elemzését, megértését vagy részletek kinyerését foglalták magukban. A modell egy olyan programot generált, amely önmaga új példányait (almodelleket) hívta meg az egyes részfeladatok kezelésére, majd az egyes példányok kimenetét visszatáplálta a gyökérmodellbe. A szerzők a Qwen3-8B, a közepes érvelési képességű GPT-5 és a Qwen3-Coder-480B alapú RLM-eket hasonlították össze az eredeti modellekkel olyan teszteken, amelyek akár 1 millió token hosszú dokumentumok lekérdezését és értelmezését igényelték. Összehasonlították az RLM-eket lekérdező eszközökkel felszerelt CodeAct ágensekkel, valamint egyedi, kontextust tömörítő vagy összegző ágensekkel is. Az RLM-ek jelentősen túlteljesítették mind az alapmodelleket, mind a többi ágens-stratégiát olyan feladatokban, amelyek több dokumentum (összesen akár 11 millió token) megértését igényelték.
Miért fontos?

A korábbi megközelítések gyakran lekérdezéssel vagy összegzéssel kezelik a hosszú kontextusokat, ami kritikus részletek elvesztéséhez vezethet. A feladatok rekurzív részfeladatokra bontásával a modell magas precizitást képes fenntartani nagyobb tokenszám mellett is. Ez a módszer tervrajzot ad olyan ágensek építéséhez, amelyek koherens módon képesek érvelni a modell bemeneti korlátját messze meghaladó mennyiségű token felett.

Eredeti forrás megtekintése (angol) →