MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Salesforce CRMArena-Pro benchmarkja összetett üzleti logikán teszteli az LLM ágenseket

A Salesforce AI Research közzétette a CRMArena-Pro-t, egy „újszerű benchmarkot az LLM ágensek holisztikus, valósághű értékeléséhez különböző szakmai környezetekben”. A benchmark azt teszteli, hogy az AI rendszerek mennyire jól képesek elvégezni azokat a feladatokat, amelyeket az emberek a vállalatok által használt üzleti szoftverekkel (például a Salesforce-szal) végzett munka során végeznek. Olyan alapvető készségeket vizsgál, mint az SQL-szerű lekérdezések megfogalmazása konkrét információk lekéréséhez; a nagy mennyiségű szövegben való keresés és a releváns adatok megtalálása; specifikus üzleti folyamatok követése előre meghatározott szabályok alapján; valamint annak eldöntése, hogy a termékcsomagok vagy a javasolt ügyfélszolgálati megoldások megfelelnek-e a vállalati irányelveknek vagy üzleti szabályoknak. Tipikus felhasználási esetek lehetnek az ügyfélszolgálat, az értékesítési hívásokból származó felismerések összegzése vagy az ügyféladatok háttérelemzése.
Miért fontos?

A CRMArena-Pro lényegében egy „ökológiailag érvényes” benchmark olyan nem kódolási feladatokhoz, amelyeket ésszerűen elvárhatunk a szövegalapú modellektől. A kódolási környezetek kisebb összetettséget mutatnak, mint az itt vázolt, ügyfélszolgálati esetekre jellemző rendezetlen környezetek, így ez a mutató a szélesebb gazdasági hatás előrejelzője lehet.

Eredeti forrás megtekintése (angol) →