AI OKTÁTÁS
A Google DeepMind megerősítéses tanuláson alapuló öntanítással növeli a modellteljesítményt
A Google DeepMind bemutatta a ReST^EM (Expectation-Maximization for Reinforced Self-Training) technikát, amely megerősítéses tanulást (reinforcement learning) használ magasabb minőségű adatkészletek iteratív generálásához. Ez az AI „bootstrapping” egy formája, ahol egy AI-t használnak az utódrendszerei tanításához szükséges alapanyagok előállításához. A technika a korábbi Reinforce Self-Training (ReST) munkára épül, és célja az ember által generált adatoktól való függőség csökkentése az olyan összetett feladatoknál, mint a matematika és a programozás.
- A folyamat egy „Generálási” lépést tartalmaz, ahol a kimeneti szekvenciákat mintavételezik és egy bináris jutalmazási funkcióval pontozzák.
- A „Javítási” lépés az új adatkészletet használja az alapmodell finomhangolására (fine-tuning), miközben minimalizálja a feladatspecifikus túltanulást (overfitting).
- A MATH adatkészleten végzett tesztek jelentős előnyöket mutattak, bár a kódgenerálás (APPS) esetén több iteráció után némi romlás volt tapasztalható a túltanulás miatt.
- A modell pozitív transzfert mutatott, a „Big Bench” teszteken felülmúlta az alapmodelleket chain-of-thought prompting használata mellett.
Miért fontos?
A ReST^EM az AI bootstrapping életképességének jele. Ha ez a trend folytatódik, felgyorsítja az intelligensebb rendszerek fejlesztését, csökkenti az adatkészletek relatív költségét, és növeli az alapmodellekbe fektetett hatalmas számítási kapacitás (compute) értékét. ---