MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Kutatók a nyelvi modellek visszakeresés-alapú előtanítási módszerekkel történő fejlesztését vizsgálják

Az NVIDIA, az University of Illinois Urbana-Champaign és az Arizona State University kutatói a DeepMind RETRO tanulmányán alapuló „visszakeresési” (retrieval) technikával tanítottak és adtak ki nyelvi modelleket. A visszakeresés alapötlete az, hogy a nyelvi modellt úgy tanítják, hogy rendelkezzen egy modullal, amely segít neki adatokat lehívni egy nagy külső adathalmazból a tanítás során – az ötlet hatékonynak tűnik, így ebben a kutatásban a tudósok arra a kérdésre próbálnak választ adni: „Előtanítsuk-e alapértelmezés szerint visszakereséssel az autoregresszív (csak dekódoló) LLM-eket vagy sem?” Mit tettek: A tesztek során modelljeik (melyek a RETRO nevet kapták) „a szöveggenerálásban felülmúlják a GPT-t, sokkal kevesebb degenerációval (vagyis ismétléssel), mérsékelten magasabb ténybeli pontossággal és valamivel alacsonyabb toxicitással egy nem toxikus visszakeresési adatbázis használata esetén” – írják. „Eredményeink bizonyítják, hogy a RETRO képes kihasználni a visszakeresett szomszédos elemeket, és jelentősen javítja a pontosságot a tudásintenzív feladatokban a zero-shot értékelések során.” Mennyire működik jól? „Előtanítsuk-e a csak dekóderes LLM-eket visszakereséssel? Következetes javulást tapasztalunk a szöveggenerálás minőségében, a ténybeli pontosságban, alacsonyabb toxicitást és jobb pontosságot a későbbi feladatokban, különösen a tudásintenzív feladatoknál, beleértve a nyílt doménű QA-t (kérdés-válaszolás)” – írják. „Tekintettel az előtanításhoz szükséges plusz kb. 25%-nyi GPU-órára, úgy véljük, hogy a generatív nyelvi modellek visszakereséssel történő előtanítása ígéretes irány.”
Miért fontos?

A visszakeresés (retrieval) egyszerűen egy robusztusan jó ötlet lehet: Az ehhez hasonló tanulmányok azt mutatják, hogy az olyan technikák, mint a visszakeresés, elegendően jók lehetnek ahhoz, hogy érdemes legyen őket széles körben integrálni a legtöbb nyelvi modellbe. ---

Eredeti forrás megtekintése (angol) →