AI OKTÁTÁS
A NextJS elindította az Evaluations szolgáltatását az AI kódolási képességek mérésére
A NextJS bemutatta saját értékelési csomagját, amelyet arra terveztek, hogy teszteljék, mennyire tudják az AI modellek kijavítani a sikertelen teszteket egy szabványos NextJS projektben. A mérések jelentős különbséget mutatnak a nyers modellteljesítmény és aközött, hogyan teljesítenek a modellek autonóm ágensként használva.
- Jelenleg a GPT-5 Codex vezeti a rangsort, a projekt tesztjeinek 42%-át javítva ki.
- A Codex ágensként rosszabbul teljesített, mint nyers modellként, a teszteknek csak 30%-át oldotta meg.
- A Claude Code elérte a legmagasabb teljesítményt, szintén a tesztek 42%-át oldotta meg.
- A benchmark célja a fejlődés nyomon követése abban, hogyan kezelik a modellek a valós, keretrendszer-specifikus hibakeresést.
Miért fontos?
Ahogy a kódoló ágensek egyre elterjedtebbé válnak, az olyan speciális mérések, mint a NextJS evals, kritikus fontosságúak annak meghatározásához, hogy mely modellek képesek valóban komplex webes architektúrák fenntartására. ---