Kutatók a nyelvi modellek visszakeresés-alapú előtanítási módszerekkel történő fejlesztését vizsgálják

AI KUTATÁS

Kutatók a nyelvi modellek visszakeresés-alapú előtanítási módszerekkel történő fejlesztését vizsgálják

2023. április 24. · MI Történik? · 1 perc olvasás

Az NVIDIA, az University of Illinois Urbana-Champaign és az Arizona State University kutatói a DeepMind RETRO tanulmányán alapuló „visszakeresési” (retrieval) technikával tanítottak és adtak ki nyelvi modelleket. A visszakeresés alapötlete az, hogy a nyelvi modellt úgy tanítják, hogy rendelkezzen egy modullal, amely segít neki adatokat lehívni egy nagy külső adathalmazból a tanítás során – az ötlet hatékonynak tűnik, így ebben a kutatásban a tudósok arra a kérdésre próbálnak választ adni: „Előtanítsuk-e alapértelmezés szerint visszakereséssel az autoregresszív (csak dekódoló) LLM-eket vagy sem?” Mit tettek: A tesztek során modelljeik (melyek a RETRO nevet kapták) „a szöveggenerálásban felülmúlják a GPT-t, sokkal kevesebb degenerációval (vagyis ismétléssel), mérsékelten magasabb ténybeli pontossággal és valamivel alacsonyabb toxicitással egy nem toxikus visszakeresési adatbázis használata esetén” – írják. „Eredményeink bizonyítják, hogy a RETRO képes kihasználni a visszakeresett szomszédos elemeket, és jelentősen javítja a pontosságot a tudásintenzív feladatokban a zero-shot értékelések során.” Mennyire működik jól? „Előtanítsuk-e a csak dekóderes LLM-eket visszakereséssel? Következetes javulást tapasztalunk a szöveggenerálás minőségében, a ténybeli pontosságban, alacsonyabb toxicitást és jobb pontosságot a későbbi feladatokban, különösen a tudásintenzív feladatoknál, beleértve a nyílt doménű QA-t (kérdés-válaszolás)” – írják. „Tekintettel az előtanításhoz szükséges plusz kb. 25%-nyi GPU-órára, úgy véljük, hogy a generatív nyelvi modellek visszakereséssel történő előtanítása ígéretes irány.”

A modelleket 148 milliótól 9,5 milliárd paraméterig terjedő tartományban tesztelték.
A technika egy modult használ az információk visszakeresésére egy nagy külső adatbázisból a tanítás során.
A RETRO modellek alacsonyabb szintű ismétlést (degenerációt) mutattak a GPT-hez képest.
A megközelítés mérsékelten magasabb ténybeli pontosságot és alacsonyabb toxicitást eredményezett.
A visszakereséssel történő előtanítás körülbelül 25%-kal növeli a GPU-óra igényt.

Miért fontos?

A visszakeresés (retrieval) egyszerűen egy robusztusan jó ötlet lehet: Az ehhez hasonló tanulmányok azt mutatják, hogy az olyan technikák, mint a visszakeresés, elegendően jók lehetnek ahhoz, hogy érdemes legyen őket széles körben integrálni a legtöbb nyelvi modellbe. ---

Eredeti forrás megtekintése (angol) →