A Cohere kutatása szerint az egyszerű REINFORCE algoritmus felülmúlhatja a PPO-t az LLM-ek esetében

AI TRAINING

A Cohere kutatása szerint az egyszerű REINFORCE algoritmus felülmúlhatja a PPO-t az LLM-ek esetében

2024. március 4. · MI Történik? · 1 perc olvasás

A Cohere kutatói azt vizsgálták, hogyan befolyásolják a különböző megerősítéses tanulási (RL) algoritmusok a nyelvi modellek összehangolásának RLHF szakaszát. Kísérleteik azt mutatják, hogy bizonyos tipikus nyelvi modellezési környezetekben a REINFORCE jobban teljesít, mint a PPO – ami meglepő megállapítás, mivel a PPO az egyik legszélesebb körben használt algoritmus a megerősítéses tanulással kapcsolatos kutatásokban. A PPO-t hagyományosan azért használják, mert segít összetett stratégiák nulláról való elsajátításában, például virtuális robotok betanításánál. A nyelvi modelleket azonban előre betanított és felügyelt módon finomhangolt súlyokkal inicializálják, ami azt jelenti, hogy nem véletlenszerű paraméterezéssel indulnak. Ez kevésbé teszi aggályossá a gradiensbecslők magas varianciáját, lehetővé téve egyszerűbb, kevésbé számításigényes módszerek alkalmazását.

Megállapították, hogy a REINFORCE Leave-One-Out (RLOO) jobban működik különböző nyelvi modell beállításoknál
Érvelésük szerint a PPO erős regularizációja kevésbé szükséges, ha előre betanított modellekkel indulunk
Az RLHF-et olyan specifikus területként azonosítják, ahol a hagyományos mély-RL komplexitása csökkenthető
Bemutatják, hogy az egyszerűbb optimalizációs módszerek megőrizhetik a robusztusságot, miközben olcsóbban futtathatók

Miért fontos?

A komplexitás leépítése maga a fejlődés. Ahogy a kutatók egyszerűsítik az AI tanítás megismételhető összetevőit, a folyamat olcsóbbá és hozzáférhetőbbé válik. Ez a kutatás jelzi, hogy a nyelvi modellek összehangolása elért egy olyan érettségi pontot, ahol egyszerűbb formákba tömöríthető. ---

Eredeti forrás megtekintése (angol) →