A Vectara ranglistája a hallucinációs arányuk alapján rangsorolja az LLM-eket
A Vectara nemrégiben tette közzé az úgynevezett LLM Leaderboard ranglistáját, amely egy teljesen új megközelítésből, a hallucinációs arányok alapján elemzi és hasonlítja össze a piacon elérhető legjelentősebb nagy nyelvi modelleket. A generatív mesterséges intelligencia fejlesztésének egyik legnagyobb kihívása jelenleg az, hogy a különböző chatbotok és AI rendszerek ne találjanak ki valótlan tényeket, azaz ne hallucináljanak. A Vectara friss elemzése pontosan ezt a kritikus problémát vizsgálja meg tüzetesen, bemutatva, hogy az iparág vezető megoldásai milyen gyakran térnek el a valóságtól az adatok feldolgozása során.
A kutatás során a szakértők az összegzési pontosságot helyezték a fókuszba, és egy rendkívül alapos, módszeres tesztelésnek vetették alá a piacon elérhető nyelvi modelleket. A vizsgálat keretében pontosan 1000 különböző forrásszövegen ellenőrizték, hogyan teljesítenek az egyes rendszerek, amikor azokból tömör és pontos összefoglalót kell készíteniük. A kapott eredmények alapján összeállított rangsor feketén-fehéren megmutatja, milyen gyakran és milyen hibaszázalékkal térnek el a tényektől az olyan jól ismert botok, mint a Claude vagy a GPT-4. Ez a fajta mérés alapvető fontosságú, hiszen rávilágít arra, hogy a szöveggenerálás során mely modellek képesek a leginkább hűek maradni az eredeti tényekhez.
A Vectara aktuális adatai szerint a mezőnyt jelenleg az OpenAI technológiája vezeti magabiztosan. A GPT-4 és a GPT-3.5 modellek bizonyultak a legmegbízhatóbbnak a tesztek során, így ők állnak a lista élén, a legalacsonyabb hallucinációs rátát produkálva. Az éllovasokat szorosan követi a Meta open-source megközelítésű LLaMA modellje, amely szintén kiváló eredményeket ért el, bizonyítva a nyílt forráskódú fejlesztések erejét ebben a versenyben. Ez a rangsor nemcsak a fejlesztők számára nyújt létfontosságú visszajelzést az LLM modellek pontosságáról, hanem a technológiai startup és vállalati szektor szereplőinek is iránytűként szolgál.
Az ilyen független rangsorok és mérések kiemelten fontosak az AI ökoszisztémában, mivel a hallucinációk közvetlen hatással vannak a technológia gyakorlati alkalmazhatóságára. Ha egy nyelvi modell megbízhatatlan információkat generál, az komoly kockázatot jelenthet az üzleti folyamatokban. A Vectara kezdeményezése éppen ezért bír nagy jelentőséggel, hiszen transzparens módon mutatja be, hogy a piacvezető modellek, köztük a GPT verziók, a Claude vagy a LLaMA, mennyire képesek stabilan és tényszerűen működni a mindennapi feladatok végrehajtása közben.