A ChinaHeritaQA benchmark UNESCO világörökségi helyszíneken teszteli a látás-nyelvi modelleket
A mesterséges intelligencia fejlődésében az általános képességek mellett egyre nagyobb hangsúlyt kap a specifikus kulturális tudás és a vizuális érvelés képessége. Az intézményközi kutatócsoport által fejlesztett ChinaHeritaQA benchmark éppen ezt a célt szolgálja, hiszen kifejezetten a látás-nyelvi modellek, azaz a VLM-ek kulturális vonatkozású elemzőképességét hivatott tesztelni. Az új adatkészlet alapját 51 kínai UNESCO világörökségi helyszínről származó 2279 kiváló minőségű kép adja, amelyekhez összesen több mint 14 000 feleletválasztós kérdést kapcsoltak. Ez az innovatív tesztkörnyezet mérföldkőnek számít, mivel a modellfejlesztők számára lehetőséget nyújt arra, hogy ne csak a technikai pontosságot, hanem a modellek mélyebb, kontextuális megértését is vizsgálják, miközben az eredmények drámai fejlődést mutatnak: a legjobb nyílt súlyú modellek, mint például a Qwen-VL-8B-Instruct, már most képesek túlszárnyalni az emberi teljesítményt ebben a komplex feladatkörben.
A ChinaHeritaQA jelentősége abban rejlik, hogy rendkívül sokoldalú módon méri a modellek tudását, ugyanis hét különböző területen vár el alapos érvelést a szoftverektől. A vizsgálati szempontok között megtalálható az azonosságfelismerés és a vizuális alapozás, de a modelleknek olyan bonyolult feladatokkal is meg kell küzdeniük, mint a történelmi korszakolás, a történelmi kontextualizálás, a funkcionális elemzés, az építészeti jellemzők meghatározása, valamint a vizuális leírások pontos egyeztetése. Az adatokat a Sina Weibo felületéről származó, gondosan válogatott forrásokból építették fel, a kérdés-válasz párok pedig kínai és angol nyelven is elérhetőek, ami széleskörű alkalmazhatóságot biztosít. A statisztikák kifejezetten beszédesek: míg az emberi átlagpontosság a tesztek során 67 százalék körül mozog, a legfejlettebb VLM-ek már 81 százalékos sikerrátát érnek el, ami egyértelműen jelzi a technológia érettségét.
Ez a kezdeményezés azonban túlmutat a puszta technológiai teljesítményhajhászáson; egy olcsó és hatékonyan skálázható módszertant kínál az AI-rendszerek kulturális kompetenciájának hitelesítésére. Ahogy az LLM-ek és a VLM-ek beépülnek a mindennapi életünkbe, a kormányok részéről egyre növekszik az igény az ilyen típusú benchmarkok használatára, amelyek garantálhatják, hogy egy adott régióba érkező mesterséges intelligencia megfelelő történelmi és kulturális érzékenységgel rendelkezik. A ChinaHeritaQA tehát nemcsak kutatási célokat szolgál, hanem a jövőbeni szabályozási keretrendszerek elengedhetetlen részévé is válhat, kijelölve az utat a felelősségteljes és kulturálisan tudatos AI-fejlesztés felé.
- 14 133 kérdés-válasz párból áll, kínai és angol nyelven egyaránt.
- A képeket a Sina Weibo felületéről gyűjtötték és szűrték.
- Hétféle érvelést tesztel: azonosságfelismerés, vizuális alapozás (visual grounding), leírás egyeztetése, történelmi korszakolás, történelmi kontextualizálás, funkcionális elemzés és építészeti elemzés.
- Az emberi pontosság átlagosan 67%, míg a legjobb modellek elérik a 81%-ot.
Ez egy olcsó és skálázható módszert jelent mind az alapvető vizuális érvelés, mind a specifikus kulturális kompetencia tesztelésére. Az ilyen benchmarkok követelménnyé válhatnak az LLM-ek számára, mielőtt az egyes kormányok engedélyeznék a nagyszabású bevezetésüket adott régiókban. ---