AI OKTATÁS
A legfejlettebb modellek megközelítik az emberi bázisértéket az utótanítás és a finomhangolás terén
A PostTrainBench azt méri, hogy a legfejlettebb AI-modellek mennyire képesek kisebb, nyílt forráskódú (open-weight) modellek finomhangolására a teljesítményük javítása érdekében különböző teszteken. Ezt a feladatot hagyományosan szakértő emberi kutatók végzik a vezető laboratóriumokban. A jelenlegi adatok azt mutatják, hogy az AI-rendszerek ma már képesek elérni az emberi szakértők által biztosított teljesítménynövekedés körülbelül felét. A 2026 áprilisi állapot szerint a legjobb rendszerek 25-28%-os súlyozott átlagos javulást érnek el a teszteken, szemben az 51%-os emberi bázisértékkel.
- A tesztek közé tartozik a Qwen 3, Gemma 3 és SmolLM3 modellek finomhangolása.
- A javítandó cél-benchmarkok között szerepel az AIME 2025, a GPQA Main és a HumanEval.
- Az Opus 4.6 és a GPT 5.4 a jelenlegi vezetők az automatizált utótanítási képességek terén.
- Az emberi kutatók még mindig nagyjából kétszer akkora modell-teljesítmény javulást (uplift) érnek el, mint a jelenlegi AI-ágensek.
Miért fontos?
Ez közvetlen lépést jelent a rekurzív önfejlesztés felé, ahol az egyik modellt egy másik modell képességeinek és logikai következtetésének szisztematikus javítására használják.