NYELVI MODELLEK
A DeepMind SCoRe módszere külső felügyelet nélkül javítja az LLM-ek önjavító képességét
A DeepMind kifejlesztette a SCoRe-t – egy megerősítéses tanuláson alapuló megközelítést, amely külső felügyelet nélkül 15,6%-kal javítja az LLM-ek önjavítását a MATH, és 9,1%-kal a HumanEval benchmarkokon. Ez a módszer arra összpontosít, hogy megtanítsa a modelleket saját hibáik azonosítására és kijavítására a gondolkodási folyamat során.
- Megerősítéses tanuláson alapuló megközelítést alkalmaz a belső hibaészlelés elősegítésére.
- 15,6%-os javulást ér el a MATH benchmark teszteken.
- 9,1%-os növekedést mutat a HumanEval kódolási feladatoknál.
- Nem igényel külső felügyeletet a teljesítménybeli javulás eléréséhez.