AI TRAINING
A Cohere kutatása szerint az egyszerű REINFORCE algoritmus felülmúlhatja a PPO-t az LLM-ek esetében
A Cohere kutatói azt vizsgálták, hogyan befolyásolják a különböző megerősítéses tanulási (RL) algoritmusok a nyelvi modellek összehangolásának RLHF szakaszát. Kísérleteik azt mutatják, hogy bizonyos tipikus nyelvi modellezési környezetekben a REINFORCE jobban teljesít, mint a PPO – ami meglepő megállapítás, mivel a PPO az egyik legszélesebb körben használt algoritmus a megerősítéses tanulással kapcsolatos kutatásokban.
A PPO-t hagyományosan azért használják, mert segít összetett stratégiák nulláról való elsajátításában, például virtuális robotok betanításánál. A nyelvi modelleket azonban előre betanított és felügyelt módon finomhangolt súlyokkal inicializálják, ami azt jelenti, hogy nem véletlenszerű paraméterezéssel indulnak. Ez kevésbé teszi aggályossá a gradiensbecslők magas varianciáját, lehetővé téve egyszerűbb, kevésbé számításigényes módszerek alkalmazását.
- Megállapították, hogy a REINFORCE Leave-One-Out (RLOO) jobban működik különböző nyelvi modell beállításoknál
- Érvelésük szerint a PPO erős regularizációja kevésbé szükséges, ha előre betanított modellekkel indulunk
- Az RLHF-et olyan specifikus területként azonosítják, ahol a hagyományos mély-RL komplexitása csökkenthető
- Bemutatják, hogy az egyszerűbb optimalizációs módszerek megőrizhetik a robusztusságot, miközben olcsóbban futtathatók
Miért fontos?
A komplexitás leépítése maga a fejlődés. Ahogy a kutatók egyszerűsítik az AI tanítás megismételhető összetevőit, a folyamat olcsóbbá és hozzáférhetőbbé válik. Ez a kutatás jelzi, hogy a nyelvi modellek összehangolása elért egy olyan érettségi pontot, ahol egyszerűbb formákba tömöríthető. ---