MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A CRMArena-Pro benchmark komplex üzleti logikai feladatokon teszteli az LLM ágenseket

A Salesforce AI Research közzétette a CRMArena-Pro eszközt, amely „egy új benchmark az LLM ágensek holisztikus, valósághű értékelésére különféle szakmai környezetekben”. A benchmark azt vizsgálja, hogy az AI rendszerek mennyire jól végzik el azokat a feladatokat, amelyeket az emberek a vállalati szoftverek (például a Salesforce) használata során végeznek. Olyan alapvető készségeket tesztel, mint a SQL-szerű lekérdezések megfogalmazása információkereséshez; nagy mennyiségű szöveg átkutatása releváns adatokért; meghatározott üzleti folyamatok követése előre definiált szabályok alapján; valamint annak eldöntése, hogy a termékcsomagok vagy javasolt ügyfélszolgálati megoldások megfelelnek-e a vállalati irányelveknek vagy üzleti szabályoknak.
Miért fontos?

A CRMArena-Pro alapvetően egy „ökológiailag érvényes” benchmark a nem kódolási feladatokhoz, amelyeket elvárhatunk a szövegalapú modellektől. Ezért az ehhez hasonló benchmarkok mutatóként szolgálhatnak arra, hogy az AI rendszerek várhatóan mekkora hatást gyakorolnak a gazdaságra a szoftverfejlesztésen túl.

Eredeti forrás megtekintése (angol) →