AI TRAINING
A DeepMind kifejlesztette a megerősített önoktatást (ReST) a nyelvi modellek gyorsabb fejlesztése érdekében
A Google DeepMind kutatói kifejlesztették a „Reinforced Self-Training” (ReST) eljárást, amely egy technika a nyelvi modellek RL (megerősítéses tanulás) útján történő iteratív finomhangolására, hogy azok jobban igazodjanak az emberi preferenciákhoz. A ReST azért érdekes, mert lehetővé teszi az online megerősítéses tanulást – ahelyett, hogy betanítanának egy modellt, adatokat gyűjtenének, újra betanítanák a modellt, majd újabb adatokat gyűjtenének, a ReST lehetővé teszi a modell betanítását, majd azt, hogy a modell maga generáljon saját kiegészítő adathalmazt, végül pedig ezen az adathalmazon hangolják finomra a modellt. Alapvetően a ReST gyorsabb ciklusidőt tesz lehetővé az AI rendszerek fejlesztésében, bár van egy fontos hátulütője – eddig úgy tűnik, ha túl sok ReST iterációt végeznek, az károsíthatja a rendszer teljesítményét, mert a modell túlilleszkedik (overfitting) az adatgeneráláshoz használt jutalmazási jelre.
- A ReST két külön szakaszból áll: egy „növekedési” (grow) és egy „javítási” (improve) lépésből.
- A növekedési lépésben a nyelvi modell irányelve (policy) több kimeneti jóslatot generál minden kontextushoz a tanító adathalmaz bővítése érdekében.
- A javítási lépésben a bővített adathalmazt egy tanult jutalmazási modell segítségével rangsorolják és szűrik, majd az irányelv finomhangolására használják.
- A tesztek azt mutatták, hogy a ReST jól működik gépi fordítás esetén, ha egy-egy növekedési és javítási lépést alkalmaznak.
- Az ismételt iterációk jelenleg túlilleszkedéshez vezetnek, ahol a jutalmazási pontszámok nőnek, de az emberi értékelési pontszámok nem.
Miért fontos?
Az olyan technikák, mint a ReST, azért fontosak, mert az AI fejlesztési ciklusának további gyorsítását ígérik. Ha sikerül leküzdeni a túlilleszkedési problémákat, a számítógépes időt emberi időre válthatjuk, lehetővé téve a rendszerek számára, hogy minimális emberi beavatkozással fejlesszék önmagukat. ---