MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Meta önjutalmazó visszacsatolási hurkokat használ a LLaMa 2 teljesítményének fokozására

A Facebook kutatói kidolgoztak egy „Self-Rewarding Language Models” (Önjutalmazó Nyelvi Modellek) nevű technikát, amely során nyelvi modelleket használnak saját adatkészleteik generálására a jobb teljesítmény elérése érdekében. Módszerük működik: lehetővé tette számukra, hogy egy LLaMa 2 70B modellt olyan szintig finomhangoljanak, hogy az (bizonyos értékelések alapján) versenyképes legyen az olyan sokkal drágább modellekkel, mint a GPT-4, a Claude 2 és a Gemini Pro. A koncepció lényege egy olyan ágens kifejlesztése, amely „rendelkezik a tanítás során elvárt összes képességgel, ahelyett, hogy ezeket különálló modellekre – például jutalmazási modellre és nyelvi modellre – bontanák szét” – írja a Facebook. Az így felépített ágensek két fő tulajdonsággal bírnak: „(i) utasításkövető modellként válaszokat generálnak a megadott promptokra; és (ii) képesek új utasításkövető példákat generálni és értékelni, amelyeket hozzáadnak saját tanító adatkészletükhöz”. A Facebook az eredményül kapott modelleket 256 tesztprompttal értékelte az AlpacaEval keretrendszer használatával. A tesztek során azt tapasztalták, hogy modelljeik esetenként versenyképesek az olyan sokkal költségesebb modellekkel, mint a GPT-4, a Claude 2 és a Gemini Pro.
Miért fontos?

Ez kiemelten fontos mérföldkő – azt jelenti, hogy a számítási kapacitás (compute) adatra váltható. A kutatók számítási erőforrást fordítanak egy előtanított modellre, hogy az adatforrássá váljon saját utódai számára. Az is lenyűgöző, hogy a Facebook módszere három iteráción keresztül is működik, mivel sok hasonló megközelítésnél több ismétlés után minőségromlás következik be.

Eredeti forrás megtekintése (angol) →