A Salesforce CRMArena-Pro benchmarkja összetett üzleti logikán teszteli az LLM ágenseket

2025. június 16. · MI Történik? · 1 perc olvasás

A Salesforce AI Research közzétette a CRMArena-Pro-t, egy „újszerű benchmarkot az LLM ágensek holisztikus, valósághű értékeléséhez különböző szakmai környezetekben”. A benchmark azt teszteli, hogy az AI rendszerek mennyire jól képesek elvégezni azokat a feladatokat, amelyeket az emberek a vállalatok által használt üzleti szoftverekkel (például a Salesforce-szal) végzett munka során végeznek. Olyan alapvető készségeket vizsgál, mint az SQL-szerű lekérdezések megfogalmazása konkrét információk lekéréséhez; a nagy mennyiségű szövegben való keresés és a releváns adatok megtalálása; specifikus üzleti folyamatok követése előre meghatározott szabályok alapján; valamint annak eldöntése, hogy a termékcsomagok vagy a javasolt ügyfélszolgálati megoldások megfelelnek-e a vállalati irányelveknek vagy üzleti szabályoknak. Tipikus felhasználási esetek lehetnek az ügyfélszolgálat, az értékesítési hívásokból származó felismerések összegzése vagy az ügyféladatok háttérelemzése.

A benchmark 25 Salesforce objektumból áll, amelyek B2B és B2C kontextusú vállalari adatkészleteket tartalmaznak.
Az LLM-eket 19 különböző feladaton tesztelik 100 személyre szabott Salesforce környezetben.
A vezető LLM ágensek szerény, körülbelül 58%-os sikerarányt érnek el egylépéses (single-turn) forgatókönyvekben, ami 35%-ra csökken a többlépéses (multi-turn) környezetekben.
A Gemini-2.5-Pro teljesített a legjobban az egylépéses helyzetekben, míg az o1 volt a legjobb a többlépéses forgatókönyvekben.
Az érvelő modellek lényegesen jobb teljesítményt mutattak a nem érvelőkhöz képest.

Miért fontos?

A CRMArena-Pro lényegében egy „ökológiailag érvényes” benchmark olyan nem kódolási feladatokhoz, amelyeket ésszerűen elvárhatunk a szövegalapú modellektől. A kódolási környezetek kisebb összetettséget mutatnak, mint az itt vázolt, ügyfélszolgálati esetekre jellemző rendezetlen környezetek, így ez a mutató a szélesebb gazdasági hatás előrejelzője lehet.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az OSWORLD 2.0 benchmark többórás számítógépes feladatokon teszteli az AI-t

2026. július 6.

A Surge AI kiadta a Riemann-bench-et a haladó matematikai érvelés tesztelésére

2026. március 26.

AI-modellek szerezték meg az élmezőnyt a programozó világbajnokságon

2025. szeptember 18.