MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Cohere kutatása szerint az egyszerű REINFORCE algoritmus felülmúlhatja a PPO-t az LLM-ek esetében

A Cohere kutatói azt vizsgálták, hogyan befolyásolják a különböző megerősítéses tanulási (RL) algoritmusok a nyelvi modellek összehangolásának RLHF szakaszát. Kísérleteik azt mutatják, hogy bizonyos tipikus nyelvi modellezési környezetekben a REINFORCE jobban teljesít, mint a PPO – ami meglepő megállapítás, mivel a PPO az egyik legszélesebb körben használt algoritmus a megerősítéses tanulással kapcsolatos kutatásokban.

A PPO-t hagyományosan azért használják, mert segít összetett stratégiák nulláról való elsajátításában, például virtuális robotok betanításánál. A nyelvi modelleket azonban előre betanított és felügyelt módon finomhangolt súlyokkal inicializálják, ami azt jelenti, hogy nem véletlenszerű paraméterezéssel indulnak. Ez kevésbé teszi aggályossá a gradiensbecslők magas varianciáját, lehetővé téve egyszerűbb, kevésbé számításigényes módszerek alkalmazását.

Miért fontos?

A komplexitás leépítése maga a fejlődés. Ahogy a kutatók egyszerűsítik az AI tanítás megismételhető összetevőit, a folyamat olcsóbbá és hozzáférhetőbbé válik. Ez a kutatás jelzi, hogy a nyelvi modellek összehangolása elért egy olyan érettségi pontot, ahol egyszerűbb formákba tömöríthető. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
A Perplexity és a Harvard tanulmánya feltérképezi az összetett AI ágens alapú munka felé való eltolódást
4 napja
Az MIT tanulmánya azonosítja a legfőbb AI-kockázatokat és a felelős intézményeket
5 napja
Tanulmány: Az AI tutorok felülmúlják a jogi kart
2026. június 4.
Tudj meg többet
Neurális hálózat: mi az és hogyan tanul? Egyszerű magyarázat
Mi az az AI? A mesterséges intelligencia egyszerű magyarázata