AI BENCHMARKOK
A CRMArena-Pro benchmark komplex üzleti logikai feladatokon teszteli az LLM ágenseket
A Salesforce AI Research közzétette a CRMArena-Pro eszközt, amely „egy új benchmark az LLM ágensek holisztikus, valósághű értékelésére különféle szakmai környezetekben”. A benchmark azt vizsgálja, hogy az AI rendszerek mennyire jól végzik el azokat a feladatokat, amelyeket az emberek a vállalati szoftverek (például a Salesforce) használata során végeznek. Olyan alapvető készségeket tesztel, mint a SQL-szerű lekérdezések megfogalmazása információkereséshez; nagy mennyiségű szöveg átkutatása releváns adatokért; meghatározott üzleti folyamatok követése előre definiált szabályok alapján; valamint annak eldöntése, hogy a termékcsomagok vagy javasolt ügyfélszolgálati megoldások megfelelnek-e a vállalati irányelveknek vagy üzleti szabályoknak.
- A benchmark 25 Salesforce objektumból áll, amelyek B2B (29 101 bejegyzés) és B2C (54 549 bejegyzés) környezetű vállalati adatokat tartalmaznak.
- Az LLM-eket 19 különböző feladaton tesztelik, minden feladat 100 különböző Salesforce-környezetet érint.
- A vezető LLM ágensek szerény sikereket érnek el: jellemzően 58%-ot az egylépéses és 35%-ot a többlépéses környezetben.
- A Gemini-2.5-Pro teljesített a legjobban az egylépéses forgatókönyvekben, míg az OpenAI o1-es modellje a többlépéses feladatoknál.
Miért fontos?
A CRMArena-Pro alapvetően egy „ökológiailag érvényes” benchmark a nem kódolási feladatokhoz, amelyeket elvárhatunk a szövegalapú modellektől. Ezért az ehhez hasonló benchmarkok mutatóként szolgálhatnak arra, hogy az AI rendszerek várhatóan mekkora hatást gyakorolnak a gazdaságra a szoftverfejlesztésen túl.