MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A rekurzív nyelvi modellek a kontextusablakon túlra bővítik a feldolgozást

Hosszú kontextusok feldolgozásakor a nagy nyelvi modellek gyakran elveszítik a fonalat a részletekben, vagy értelmetlen szövegeket kezdenek gyártani. Kutatók csökkentették ezeket a hatásokat a kontextus külső kezelésével. Az MIT kutatói, Alex L. Zhang, Tim Kraska és Omar Khattab kifejlesztették a rekurzív nyelvi modelleket (Recursive Language Models - RLM), amelyek a könyvekben, webes keresésekben és kódbázisokban előforduló hosszú promptokat úgy dolgozzák fel, hogy a promptokat egy külső környezetbe helyezik át, és programozottan kezelik őket. Egy nyelvi modell képes feldolgozni hosszú bemeneteket – beleértve a kontextusablakánál nagyobbakat is –, ha a bemeneti szöveget perzisztens változóként kezeli egy külső programozási környezetben. A modell kódot írhat, hogy csak a szükséges szövegrészleteket hívja le. Például kulcsszavakat kereshet, és lekérheti a körülöttük lévő bekezdéseket. A kód iteratív írása lehetővé teszi a modell számára, hogy a hosszú kontextust igénylő feladatokat részfeladatokra bontsa, mielőtt egészként közelítené meg őket. Az RLM-ek Python kód futtatásával olvassák és manipulálják a feladatokat egy egyszerű "read-evaluate-print loop" (REPL) környezetben. A modell generált egy programot, amely saját magának új példányait (almodelleket) hívta meg az egyes részfeladatok kezelésére, majd az egyes példányok kimenetét visszatáplálta a főmodellbe.
Miért fontos?

A korábbi megközelítések gyakran visszakereséssel (retrieval) vagy összegzéssel kezelik a hosszú kontextusokat, ami kritikus részletek elvesztésével járhat. A feladatok rekurzív alhívásokra bontásával a modell magas precizitást képes fenntartani több tokenen keresztül is. Ez a módszer tervrajzot ad olyan ágensek építéséhez, amelyek koherensen képesek érvelni olyan tokenmennyiségek felett, amelyek messze meghaladják a modell bemeneti korlátját.

Eredeti forrás megtekintése (angol) →