MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A ServiceNow AI Research bemutatta az EVA-t, a hangalapú ágensek értékelési keretrendszerét

A ServiceNow AI Research közzétette az EVA-t, egy olyan értékelési keretrendszert, amely botok közötti audió szimulációkon keresztül méri a hangalapú ágensek feladatmegoldási pontosságát és a társalgási élmény minőségét. A keretrendszer két részre osztja a metrikákat: pontosságra (feladat teljesítése, ténybeli hitelesség, beszédhűség) és élményre (tömörség, a beszélgetés előrehaladása, a megszólalások időzítése). Húsz rendszeren – köztük kaszkád és audió-natív architektúrákon – végzett tesztelés 50 légitársasági ügyfélszolgálati szcenárióban rávilágított egy állandó kompromisszumra: a feladatmegoldásban jeleskedő ágensek jellemzően rosszabb felhasználói élményt nyújtanak, és fordítva. A GitHubon elérhető open-source keretrendszer tartalmazza az adathalmazt, a kódot és az értékelő bírákat, ezáltal az első olyan benchmark, amely teljes, többfordulós szóbeli beszélgetéseken keresztül méri mindkét dimenziót, nem pedig izolált összetevők alapján. A korai eredmények jól mutatják ezt az ellentmondást: például a népszerű Whisper-Large modell kiváló pontossági pontszámokkal rendelkezik, de gyenge élményt nyújt.

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
A Fehér Ház nemzeti AI politikai keretrendszert javasol az állami törvények felülírására
2026. március 25.
Az Arm összeállt a Meta-val az első saját tervezésű AGI CPU elindításához
2026. március 25.
A Cursor kiadta a Composer 2 kódoló modellt ágens képességekkel
2026. március 23.