MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A DeepMind kifejlesztette a megerősített önoktatást (ReST) a nyelvi modellek gyorsabb fejlesztése érdekében

A Google DeepMind kutatói kifejlesztették a „Reinforced Self-Training” (ReST) eljárást, amely egy technika a nyelvi modellek RL (megerősítéses tanulás) útján történő iteratív finomhangolására, hogy azok jobban igazodjanak az emberi preferenciákhoz. A ReST azért érdekes, mert lehetővé teszi az online megerősítéses tanulást – ahelyett, hogy betanítanának egy modellt, adatokat gyűjtenének, újra betanítanák a modellt, majd újabb adatokat gyűjtenének, a ReST lehetővé teszi a modell betanítását, majd azt, hogy a modell maga generáljon saját kiegészítő adathalmazt, végül pedig ezen az adathalmazon hangolják finomra a modellt. Alapvetően a ReST gyorsabb ciklusidőt tesz lehetővé az AI rendszerek fejlesztésében, bár van egy fontos hátulütője – eddig úgy tűnik, ha túl sok ReST iterációt végeznek, az károsíthatja a rendszer teljesítményét, mert a modell túlilleszkedik (overfitting) az adatgeneráláshoz használt jutalmazási jelre.
Miért fontos?

Az olyan technikák, mint a ReST, azért fontosak, mert az AI fejlesztési ciklusának további gyorsítását ígérik. Ha sikerül leküzdeni a túlilleszkedési problémákat, a számítógépes időt emberi időre válthatjuk, lehetővé téve a rendszerek számára, hogy minimális emberi beavatkozással fejlesszék önmagukat. ---

Eredeti forrás megtekintése (angol) →