A NextJS elindította az Evaluations szolgáltatását az AI kódolási képességek mérésére
A NextJS bemutatta saját értékelési csomagját, amelyet arra terveztek, hogy teszteljék, mennyire tudják az AI modellek kijavítani a sikertelen teszteket egy szabványos NextJS projektben. A mérések jelentős különbséget mutatnak a nyers modellteljesítmény és aközött, hogyan teljesítenek a modellek autonóm ágensként használva.
- Jelenleg a GPT-5 Codex vezeti a rangsort, a projekt tesztjeinek 42%-át javítva ki.
- A Codex ágensként rosszabbul teljesített, mint nyers modellként, a teszteknek csak 30%-át oldotta meg.
- A Claude Code elérte a legmagasabb teljesítményt, szintén a tesztek 42%-át oldotta meg.
- A benchmark célja a fejlődés nyomon követése abban, hogyan kezelik a modellek a valós, keretrendszer-specifikus hibakeresést.
Miért fontos?
Ahogy a kódoló ágensek egyre elterjedtebbé válnak, az olyan speciális mérések, mint a NextJS evals, kritikus fontosságúak annak meghatározásához, hogy mely modellek képesek valóban komplex webes architektúrák fenntartására. ---
Kapcsolódó hírek
Az 5-szintes AI jártassági modell teljesen kezdőknek
2026. április 2.
Hogyan használjuk a Dispatch-et a számítógép távoli vezérlésére a Claude segítségével
2026. március 25.
Hogyan használd a Claude-ot AI tárhelytisztító segédpilótaként
2026. március 24.