DATA POINTS
A ServiceNow AI Research bemutatta az EVA kétdimenziós hangalapú ágens-benchmarkot
A ServiceNow AI Research közzétette az EVA-t, egy olyan értékelési keretrendszert, amely bot-to-bot audio szimulációkon keresztül méri mind a feladatvégrehajtás pontosságát, mind a beszélgetési élmény minőségét a hangalapú ágenseknél. A keretrendszer a mérőszámokat pontosságra (feladat teljesítése, ténybeli hűség, beszédhűség) és élményre (tömörség, a beszélgetés előrehaladása, a beszélgetési fordulók időzítése) osztja fel. 20 rendszer tesztelése során – beleértve a kaszkád és az audio-natív architektúrákat 50 légitársasági ügyfélszolgálati forgatókönyvön – egy következetes kompromisszum rajzolódott ki: a feladatvégrehajtásban kiváló ágensek jellemzően rosszabb felhasználói élményt nyújtanak, és fordítva. Az open-source keretrendszer tartalmazza az adatkészletet, a kódot és az értékelő bírákat a GitHubon, kijelölve az első olyan benchmarkot, amely mindkét dimenziót teljes, többfordulós beszélgetéseken keresztül értékeli, nem pedig elszigetelt komponenseken. A korai eredmények ellentmondást mutatnak a pontosság és az élmény között: például a népszerű Whisper-Large modell erős pontossági pontszámokkal, de gyenge élmény-pontszámokkal rendelkezik.
- Az EVA két dimenzióban méri a hangalapú ágenseket: pontosság és beszélgetési élmény
- A tesztelés rámutatott egy összefüggésre, ahol a magas feladatpontosság gyakran rossz felhasználói élménnyel párosul
- A keretrendszer bot-to-bot audio szimulációkat használ 50 ügyfélszolgálati forgatókönyv modellezéséhez
- A ServiceNow open-source formában tette elérhetővé az adatkészletet, a kódot és az értékelőket a GitHubon