A Meta öntanító értékelője emberi címkézés nélkül javítja az LLM-ek teljesítményét

NYELVI MODELLEK

A Meta öntanító értékelője emberi címkézés nélkül javítja az LLM-ek teljesítményét

2024. augusztus 8. · MI Történik? · 1 perc olvasás

A Meta kutatói kifejlesztettek egy "Self-Taught Evaluator"-t (öntanító értékelő), amely szintetikus adatokat használ egy LLM-as-a-Judge modell iteratív tanításához. Ez a megközelítés jelentősen növeli a teljesítményt a jutalmazás-alapú benchmarkokon, és az eredményei összemérhetőek a drága emberi annotációkra támaszkodó legjobb jutalmazási modellekével.

Szintetikus adatokat használ az iteratív önfejlesztéshez
Eléri az emberi annotációval ellátott adatokon tanított modellek teljesítményszintjét
Jelentős teljesítményjavulást mutat a RewardBench teszten

Eredeti forrás megtekintése (angol) →