A Google DeepMind megerősítéses tanuláson alapuló öntanítással növeli a modellteljesítményt

AI OKTÁTÁS

A Google DeepMind megerősítéses tanuláson alapuló öntanítással növeli a modellteljesítményt

2023. december 18. · MI Történik? · 1 perc olvasás

A Google DeepMind bemutatta a ReST^EM (Expectation-Maximization for Reinforced Self-Training) technikát, amely megerősítéses tanulást (reinforcement learning) használ magasabb minőségű adatkészletek iteratív generálásához. Ez az AI „bootstrapping” egy formája, ahol egy AI-t használnak az utódrendszerei tanításához szükséges alapanyagok előállításához. A technika a korábbi Reinforce Self-Training (ReST) munkára épül, és célja az ember által generált adatoktól való függőség csökkentése az olyan összetett feladatoknál, mint a matematika és a programozás.

A folyamat egy „Generálási” lépést tartalmaz, ahol a kimeneti szekvenciákat mintavételezik és egy bináris jutalmazási funkcióval pontozzák.
A „Javítási” lépés az új adatkészletet használja az alapmodell finomhangolására (fine-tuning), miközben minimalizálja a feladatspecifikus túltanulást (overfitting).
A MATH adatkészleten végzett tesztek jelentős előnyöket mutattak, bár a kódgenerálás (APPS) esetén több iteráció után némi romlás volt tapasztalható a túltanulás miatt.
A modell pozitív transzfert mutatott, a „Big Bench” teszteken felülmúlta az alapmodelleket chain-of-thought prompting használata mellett.

Miért fontos?

A ReST^EM az AI bootstrapping életképességének jele. Ha ez a trend folytatódik, felgyorsítja az intelligensebb rendszerek fejlesztését, csökkenti az adatkészletek relatív költségét, és növeli az alapmodellekbe fektetett hatalmas számítási kapacitás (compute) értékét. ---

Eredeti forrás megtekintése (angol) →