AI BENCHMARKOK
A Salesforce CRMArena-Pro benchmarkja összetett üzleti logikán teszteli az LLM ágenseket
A Salesforce AI Research közzétette a CRMArena-Pro-t, egy „újszerű benchmarkot az LLM ágensek holisztikus, valósághű értékeléséhez különböző szakmai környezetekben”. A benchmark azt teszteli, hogy az AI rendszerek mennyire jól képesek elvégezni azokat a feladatokat, amelyeket az emberek a vállalatok által használt üzleti szoftverekkel (például a Salesforce-szal) végzett munka során végeznek. Olyan alapvető készségeket vizsgál, mint az SQL-szerű lekérdezések megfogalmazása konkrét információk lekéréséhez; a nagy mennyiségű szövegben való keresés és a releváns adatok megtalálása; specifikus üzleti folyamatok követése előre meghatározott szabályok alapján; valamint annak eldöntése, hogy a termékcsomagok vagy a javasolt ügyfélszolgálati megoldások megfelelnek-e a vállalati irányelveknek vagy üzleti szabályoknak. Tipikus felhasználási esetek lehetnek az ügyfélszolgálat, az értékesítési hívásokból származó felismerések összegzése vagy az ügyféladatok háttérelemzése.
- A benchmark 25 Salesforce objektumból áll, amelyek B2B és B2C kontextusú vállalari adatkészleteket tartalmaznak.
- Az LLM-eket 19 különböző feladaton tesztelik 100 személyre szabott Salesforce környezetben.
- A vezető LLM ágensek szerény, körülbelül 58%-os sikerarányt érnek el egylépéses (single-turn) forgatókönyvekben, ami 35%-ra csökken a többlépéses (multi-turn) környezetekben.
- A Gemini-2.5-Pro teljesített a legjobban az egylépéses helyzetekben, míg az o1 volt a legjobb a többlépéses forgatókönyvekben.
- Az érvelő modellek lényegesen jobb teljesítményt mutattak a nem érvelőkhöz képest.
Miért fontos?
A CRMArena-Pro lényegében egy „ökológiailag érvényes” benchmark olyan nem kódolási feladatokhoz, amelyeket ésszerűen elvárhatunk a szövegalapú modellektől. A kódolási környezetek kisebb összetettséget mutatnak, mint az itt vázolt, ügyfélszolgálati esetekre jellemző rendezetlen környezetek, így ez a mutató a szélesebb gazdasági hatás előrejelzője lehet.