MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Cohere kutatása szerint az egyszerű REINFORCE algoritmus felülmúlhatja a PPO-t az LLM-ek esetében

A Cohere kutatói azt vizsgálták, hogyan befolyásolják a különböző megerősítéses tanulási (RL) algoritmusok a nyelvi modellek összehangolásának RLHF szakaszát. Kísérleteik azt mutatják, hogy bizonyos tipikus nyelvi modellezési környezetekben a REINFORCE jobban teljesít, mint a PPO – ami meglepő megállapítás, mivel a PPO az egyik legszélesebb körben használt algoritmus a megerősítéses tanulással kapcsolatos kutatásokban. A PPO-t hagyományosan azért használják, mert segít összetett stratégiák nulláról való elsajátításában, például virtuális robotok betanításánál. A nyelvi modelleket azonban előre betanított és felügyelt módon finomhangolt súlyokkal inicializálják, ami azt jelenti, hogy nem véletlenszerű paraméterezéssel indulnak. Ez kevésbé teszi aggályossá a gradiensbecslők magas varianciáját, lehetővé téve egyszerűbb, kevésbé számításigényes módszerek alkalmazását.
Miért fontos?

A komplexitás leépítése maga a fejlődés. Ahogy a kutatók egyszerűsítik az AI tanítás megismételhető összetevőit, a folyamat olcsóbbá és hozzáférhetőbbé válik. Ez a kutatás jelzi, hogy a nyelvi modellek összehangolása elért egy olyan érettségi pontot, ahol egyszerűbb formákba tömöríthető. ---

Eredeti forrás megtekintése (angol) →