AI KUTATÁS
A Google Research szerint az AI-visszajelzés megegyezik az emberi teljesítménnyel az RLHF-ben
A Google kutatói tanulmányt tettek közzé az AI-visszajelzésen alapuló megerősítéses tanulásról (RLAIF), amely kimutatta, hogy az azonos szinten teljesít, mint az emberi visszajelzésen alapuló megerősítéses tanulás (RLHF). Ez a felfedezés az AI-fejlesztés egyik legfőbb szűk keresztmetszetét orvosolja: az emberi címkézés magas költségét és lassúságát. A DeepMind is hozzájárult ehhez a területhez a Reinforced Self-Training (ReST) munkájával.
- Az RLAIF potenciális megoldást kínál az emberigényes RLHF skálázhatósági korlátaira
- A DeepMind ReST módszere offline megerősítéses tanulással hangolja az LLM-eket az emberi preferenciákhoz
- Ezek a módszerek jelentősen javítják a gépi fordítás minőségét és a modell illeszkedését (alignment) emberi beavatkozás nélkül
Miért fontos?
Ha az AI képes hatékonyan tanítani és finomhangolni saját magát minimális emberi beavatkozással, a modellek fejlődési sebessége valószínűleg exponenciálisan felgyorsul, miközben a költségek csökkennek. ---