A NextJS elindította az Evaluations szolgáltatását az AI kódolási képességek mérésére

2025. október 30. · MI Történik? · 1 perc olvasás

A NextJS bemutatta saját értékelési csomagját, amelyet arra terveztek, hogy teszteljék, mennyire tudják az AI modellek kijavítani a sikertelen teszteket egy szabványos NextJS projektben. A mérések jelentős különbséget mutatnak a nyers modellteljesítmény és aközött, hogyan teljesítenek a modellek autonóm ágensként használva.

Jelenleg a GPT-5 Codex vezeti a rangsort, a projekt tesztjeinek 42%-át javítva ki.
A Codex ágensként rosszabbul teljesített, mint nyers modellként, a teszteknek csak 30%-át oldotta meg.
A Claude Code elérte a legmagasabb teljesítményt, szintén a tesztek 42%-át oldotta meg.
A benchmark célja a fejlődés nyomon követése abban, hogyan kezelik a modellek a valós, keretrendszer-specifikus hibakeresést.

Miért fontos?

Ahogy a kódoló ágensek egyre elterjedtebbé válnak, az olyan speciális mérések, mint a NextJS evals, kritikus fontosságúak annak meghatározásához, hogy mely modellek képesek valóban komplex webes architektúrák fenntartására. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az 5-szintes AI jártassági modell teljesen kezdőknek

2026. április 2.

Hogyan használjuk a Dispatch-et a számítógép távoli vezérlésére a Claude segítségével

2026. március 25.

Hogyan használd a Claude-ot AI tárhelytisztító segédpilótaként

2026. március 24.

Tudj meg többet

AI programozás: Hogyan építs saját alkalmazást kódolási tudás nélkül