A Meta önjutalmazó visszacsatolási hurkokat használ a LLaMa 2 teljesítményének fokozására
A Facebook kutatói kidolgoztak egy „Self-Rewarding Language Models” (Önjutalmazó Nyelvi Modellek) nevű technikát, amely során nyelvi modelleket használnak saját adatkészleteik generálására a jobb teljesítmény elérése érdekében. Módszerük működik: lehetővé tette számukra, hogy egy LLaMa 2 70B modellt olyan szintig finomhangoljanak, hogy az (bizonyos értékelések alapján) versenyképes legyen az olyan sokkal drágább modellekkel, mint a GPT-4, a Claude 2 és a Gemini Pro.
A koncepció lényege egy olyan ágens kifejlesztése, amely „rendelkezik a tanítás során elvárt összes képességgel, ahelyett, hogy ezeket különálló modellekre – például jutalmazási modellre és nyelvi modellre – bontanák szét” – írja a Facebook. Az így felépített ágensek két fő tulajdonsággal bírnak: „(i) utasításkövető modellként válaszokat generálnak a megadott promptokra; és (ii) képesek új utasításkövető példákat generálni és értékelni, amelyeket hozzáadnak saját tanító adatkészletükhöz”.
A Facebook az eredményül kapott modelleket 256 tesztprompttal értékelte az AlpacaEval keretrendszer használatával. A tesztek során azt tapasztalták, hogy modelljeik esetenként versenyképesek az olyan sokkal költségesebb modellekkel, mint a GPT-4, a Claude 2 és a Gemini Pro.
- A modell saját maga jutalmazási modelljeként (reward model) működik, így nincs szükség külső modellre
- Négy szakaszból álló folyamatot alkalmaz: előtanítás (pretrain), értékelési finomhangolás (evaluation fine-tuning), valamint az AI Feedback adatok több iterációja
- DPO-t (Direct Preference Optimization) használ a modell adaptálásához preferenciapárokon keresztül
- A megközelítés három iteráción keresztül is hatékony marad a self-training során gyakran tapasztalt teljesítményromlás nélkül
- A GPT-4-gyel versenyképes teljesítményszintet ér el egy kisebb és olcsóbb LLaMa 2 70B alapmodell használatával
Miért fontos?
Ez kiemelten fontos mérföldkő – azt jelenti, hogy a számítási kapacitás (compute) adatra váltható. A kutatók számítási erőforrást fordítanak egy előtanított modellre, hogy az adatforrássá váljon saját utódai számára. Az is lenyűgöző, hogy a Facebook módszere három iteráción keresztül is működik, mivel sok hasonló megközelítésnél több ismétlés után minőségromlás következik be.