A DeepMind kifejlesztette a megerősített önoktatást (ReST) a nyelvi modellek gyorsabb fejlesztése érdekében

AI TRAINING

A DeepMind kifejlesztette a megerősített önoktatást (ReST) a nyelvi modellek gyorsabb fejlesztése érdekében

2023. augusztus 28. · MI Történik? · 1 perc olvasás

A Google DeepMind kutatói kifejlesztették a „Reinforced Self-Training” (ReST) eljárást, amely egy technika a nyelvi modellek RL (megerősítéses tanulás) útján történő iteratív finomhangolására, hogy azok jobban igazodjanak az emberi preferenciákhoz. A ReST azért érdekes, mert lehetővé teszi az online megerősítéses tanulást – ahelyett, hogy betanítanának egy modellt, adatokat gyűjtenének, újra betanítanák a modellt, majd újabb adatokat gyűjtenének, a ReST lehetővé teszi a modell betanítását, majd azt, hogy a modell maga generáljon saját kiegészítő adathalmazt, végül pedig ezen az adathalmazon hangolják finomra a modellt. Alapvetően a ReST gyorsabb ciklusidőt tesz lehetővé az AI rendszerek fejlesztésében, bár van egy fontos hátulütője – eddig úgy tűnik, ha túl sok ReST iterációt végeznek, az károsíthatja a rendszer teljesítményét, mert a modell túlilleszkedik (overfitting) az adatgeneráláshoz használt jutalmazási jelre.

A ReST két külön szakaszból áll: egy „növekedési” (grow) és egy „javítási” (improve) lépésből.
A növekedési lépésben a nyelvi modell irányelve (policy) több kimeneti jóslatot generál minden kontextushoz a tanító adathalmaz bővítése érdekében.
A javítási lépésben a bővített adathalmazt egy tanult jutalmazási modell segítségével rangsorolják és szűrik, majd az irányelv finomhangolására használják.
A tesztek azt mutatták, hogy a ReST jól működik gépi fordítás esetén, ha egy-egy növekedési és javítási lépést alkalmaznak.
Az ismételt iterációk jelenleg túlilleszkedéshez vezetnek, ahol a jutalmazási pontszámok nőnek, de az emberi értékelési pontszámok nem.

Miért fontos?

Az olyan technikák, mint a ReST, azért fontosak, mert az AI fejlesztési ciklusának további gyorsítását ígérik. Ha sikerül leküzdeni a túlilleszkedési problémákat, a számítógépes időt emberi időre válthatjuk, lehetővé téve a rendszerek számára, hogy minimális emberi beavatkozással fejlesszék önmagukat. ---

Eredeti forrás megtekintése (angol) →