MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A ServiceNow AI Research bemutatta az EVA-t, a hangalapú ágensek értékelési keretrendszerét

A ServiceNow AI Research közzétette az EVA-t, egy olyan értékelési keretrendszert, amely botok közötti audió szimulációkon keresztül méri a hangalapú ágensek feladatmegoldási pontosságát és a társalgási élmény minőségét. A keretrendszer két részre osztja a metrikákat: pontosságra (feladat teljesítése, ténybeli hitelesség, beszédhűség) és élményre (tömörség, a beszélgetés előrehaladása, a megszólalások időzítése). Húsz rendszeren – köztük kaszkád és audió-natív architektúrákon – végzett tesztelés 50 légitársasági ügyfélszolgálati szcenárióban rávilágított egy állandó kompromisszumra: a feladatmegoldásban jeleskedő ágensek jellemzően rosszabb felhasználói élményt nyújtanak, és fordítva. A GitHubon elérhető open-source keretrendszer tartalmazza az adathalmazt, a kódot és az értékelő bírákat, ezáltal az első olyan benchmark, amely teljes, többfordulós szóbeli beszélgetéseken keresztül méri mindkét dimenziót, nem pedig izolált összetevők alapján. A korai eredmények jól mutatják ezt az ellentmondást: például a népszerű Whisper-Large modell kiváló pontossági pontszámokkal rendelkezik, de gyenge élményt nyújt.
Eredeti forrás megtekintése (angol) →