A Google Research szerint az AI-visszajelzés megegyezik az emberi teljesítménnyel az RLHF-ben

AI KUTATÁS

A Google Research szerint az AI-visszajelzés megegyezik az emberi teljesítménnyel az RLHF-ben

2023. szeptember 10. · MI Történik? · 1 perc olvasás

A Google kutatói tanulmányt tettek közzé az AI-visszajelzésen alapuló megerősítéses tanulásról (RLAIF), amely kimutatta, hogy az azonos szinten teljesít, mint az emberi visszajelzésen alapuló megerősítéses tanulás (RLHF). Ez a felfedezés az AI-fejlesztés egyik legfőbb szűk keresztmetszetét orvosolja: az emberi címkézés magas költségét és lassúságát. A DeepMind is hozzájárult ehhez a területhez a Reinforced Self-Training (ReST) munkájával.

Az RLAIF potenciális megoldást kínál az emberigényes RLHF skálázhatósági korlátaira
A DeepMind ReST módszere offline megerősítéses tanulással hangolja az LLM-eket az emberi preferenciákhoz
Ezek a módszerek jelentősen javítják a gépi fordítás minőségét és a modell illeszkedését (alignment) emberi beavatkozás nélkül

Miért fontos?

Ha az AI képes hatékonyan tanítani és finomhangolni saját magát minimális emberi beavatkozással, a modellek fejlődési sebessége valószínűleg exponenciálisan felgyorsul, miközben a költségek csökkennek. ---

Eredeti forrás megtekintése (angol) →