A ServiceNow AI Research bemutatta az EVA-t, a hangalapú ágensek értékelési keretrendszerét

ADATOK

A ServiceNow AI Research bemutatta az EVA-t, a hangalapú ágensek értékelési keretrendszerét

2026. március 25. · MI Történik? · 1 perc olvasás

A ServiceNow AI Research közzétette az EVA-t, egy olyan értékelési keretrendszert, amely botok közötti audió szimulációkon keresztül méri a hangalapú ágensek feladatmegoldási pontosságát és a társalgási élmény minőségét. A keretrendszer két részre osztja a metrikákat: pontosságra (feladat teljesítése, ténybeli hitelesség, beszédhűség) és élményre (tömörség, a beszélgetés előrehaladása, a megszólalások időzítése). Húsz rendszeren – köztük kaszkád és audió-natív architektúrákon – végzett tesztelés 50 légitársasági ügyfélszolgálati szcenárióban rávilágított egy állandó kompromisszumra: a feladatmegoldásban jeleskedő ágensek jellemzően rosszabb felhasználói élményt nyújtanak, és fordítva. A GitHubon elérhető open-source keretrendszer tartalmazza az adathalmazt, a kódot és az értékelő bírákat, ezáltal az első olyan benchmark, amely teljes, többfordulós szóbeli beszélgetéseken keresztül méri mindkét dimenziót, nem pedig izolált összetevők alapján. A korai eredmények jól mutatják ezt az ellentmondást: például a népszerű Whisper-Large modell kiváló pontossági pontszámokkal rendelkezik, de gyenge élményt nyújt.

Az EVA olyan pontossági mutatókat mér, mint a feladat teljesítése, a ténybeli hitelesség és a beszédhűség.
A keretrendszer a felhasználói élményt a tömörség, a haladás és a megszólalások időzítése alapján értékeli.
A kutatások állandó teljesítménybeli kompromisszumot mutatnak a feladat pontossága és a társalgási minőség között.

Eredeti forrás megtekintése (angol) →