Machine Learning Research
A rekurzív nyelvi modellek utat mutatnak a kontextusablakon túli drámai bővítéshez
Hosszú kontextusok feldolgozásakor a nagy nyelvi modellek gyakran elveszítik a fonalat a részletekben, vagy értelmetlen szövegeket kezdenek gyártani. Kutatók a kontextus külső kezelésével csökkentették ezeket a hatásokat. Az MIT-nél Alex L. Zhang, Tim Kraska és Omar Khattab kifejlesztették a rekurzív nyelvi modelleket (RLM), amelyek könyvekben, internetes keresésekben és kódbázisokban található hosszú promptokat dolgoznak fel úgy, hogy a promptokat egy külső környezetbe helyezik ki, és programozottan kezelik őket. Egy nyelvi modell képes feldolgozni hosszú bemeneteket – akár a kontextusablakánál nagyobbakat is –, ha a bemeneti szöveget perzisztens változóként kezeli egy külső programozási környezetben. A modell kódot írhat, hogy csak a szükséges szövegrészleteket hívja le. Például kulcsszavakra kereshet, és lekérheti az azokat körülvevő bekezdéseket. A kód iteratív írása lehetővé teszi a modell számára, hogy a hosszú kontextusú feladatokat részfeladatokra bontsa, mielőtt egészében közelítené meg őket. Az RLM-ek Python-kód végrehajtásával olvasnak és manipulálnak feladatokat (a felhasználói promptot és a kapcsolódó dokumentumokat) egy egyszerű read-evaluate-print loop (REPL) környezetben. A feladatok hosszú dokumentumok elemzését, megértését vagy részletek kinyerését foglalták magukban. A modell egy olyan programot generált, amely önmaga új példányait (almodelleket) hívta meg az egyes részfeladatok kezelésére, majd az egyes példányok kimenetét visszatáplálta a gyökérmodellbe. A szerzők a Qwen3-8B, a közepes érvelési képességű GPT-5 és a Qwen3-Coder-480B alapú RLM-eket hasonlították össze az eredeti modellekkel olyan teszteken, amelyek akár 1 millió token hosszú dokumentumok lekérdezését és értelmezését igényelték. Összehasonlították az RLM-eket lekérdező eszközökkel felszerelt CodeAct ágensekkel, valamint egyedi, kontextust tömörítő vagy összegző ágensekkel is. Az RLM-ek jelentősen túlteljesítették mind az alapmodelleket, mind a többi ágens-stratégiát olyan feladatokban, amelyek több dokumentum (összesen akár 11 millió token) megértését igényelték.
- A szerzők Qwen3-8B, GPT-5 (400 000 tokenes kontextusablak) és Qwen3-Coder-480B (256 000 tokenes kontextusablak) alapú RLM-rendszereket építettek.
- Az RLM-rendszerek a feladatadatokat változóként töltötték be egy Python-értelmezőbe, ahelyett, hogy közvetlenül a modellbe táplálták volna.
- Egy rendszerszintű prompt utasította a gyökérmodellt Python-kód generálására a REPL környezettel való interakcióhoz, a prompt hosszának ellenőrzéséhez és kulcsszavak kereséséhez.
- A gyökérmodell logikai egységekre (például fejezetekre) bontotta a feladatokat, és almodelleket hívott meg az egyes szakaszok kezelésére.
- Az almodellek az utasításoknak megfelelően feldolgozták a részeket, és az eredményeket visszaküldték a gyökérmodellnek, amely változókként tárolta azokat a végső kimenet felépítéséhez.
- A BrowseComp+ teszten az RLM-GPT-5 91,3 százalékos pontosságot ért el, jelentősen túlszárnyalva az alap GPT-5-öt, amely kontextuskorlátokba ütközött.
- Az OOLONG-PAIRS érvelési teszten az RLM-GPT-5 körülbelül 50 százalékos pontosságot tartott fenn még 1 millió tokennyi kontextus mellett is.
- Az RLM-Qwen3-8B 14 százalékos pontosságot ért el érvelési feladatokban, szemben az alap Qwen3-8B modell 0 százalékával.
Miért fontos?
A korábbi megközelítések gyakran lekérdezéssel vagy összegzéssel kezelik a hosszú kontextusokat, ami kritikus részletek elvesztéséhez vezethet. A feladatok rekurzív részfeladatokra bontásával a modell magas precizitást képes fenntartani nagyobb tokenszám mellett is. Ez a módszer tervrajzot ad olyan ágensek építéséhez, amelyek koherens módon képesek érvelni a modell bemeneti korlátját messze meghaladó mennyiségű token felett.