A legfejlettebb modellek megközelítik az emberi bázisértéket az utótanítás és a finomhangolás terén

2026. május 4. · MI Történik? · 1 perc olvasás

A PostTrainBench azt méri, hogy a legfejlettebb AI-modellek mennyire képesek kisebb, nyílt forráskódú (open-weight) modellek finomhangolására a teljesítményük javítása érdekében különböző teszteken. Ezt a feladatot hagyományosan szakértő emberi kutatók végzik a vezető laboratóriumokban. A jelenlegi adatok azt mutatják, hogy az AI-rendszerek ma már képesek elérni az emberi szakértők által biztosított teljesítménynövekedés körülbelül felét. A 2026 áprilisi állapot szerint a legjobb rendszerek 25-28%-os súlyozott átlagos javulást érnek el a teszteken, szemben az 51%-os emberi bázisértékkel.

A tesztek közé tartozik a Qwen 3, Gemma 3 és SmolLM3 modellek finomhangolása.
A javítandó cél-benchmarkok között szerepel az AIME 2025, a GPQA Main és a HumanEval.
Az Opus 4.6 és a GPT 5.4 a jelenlegi vezetők az automatizált utótanítási képességek terén.
Az emberi kutatók még mindig nagyjából kétszer akkora modell-teljesítmény javulást (uplift) érnek el, mint a jelenlegi AI-ágensek.

Miért fontos?

Ez közvetlen lépést jelent a rekurzív önfejlesztés felé, ahol az egyik modellt egy másik modell képességeinek és logikai következtetésének szisztematikus javítására használják.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Klasszikus anime stílusú képgeneráló prompt

10 órája

Cold Outreach szakértő prompt

11 órája

Így használd a Manus AI-t, hogy a saját hangodon írj LinkedIn-posztokat

13 órája

Tudj meg többet

AI modellek finomhangolása és egyedi fejlesztése: Lépj túl a generikus megoldásokon!

Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?