Az államilag ellenőrzött média közvetlenül befolyásolja a nagy nyelvi modellek politikai elfogultságát
Az államilag ellenőrzött média közvetlenül befolyásolja a nagy nyelvi modellek politikai elfogultságát
A Nature folyóiratban nemrégiben megjelent tanulmány rávilágított egy aggasztó jelenségre: az államilag ellenőrzött média közvetlenül és mérhetően befolyásolja a nagy nyelvi modellek (LLM) politikai elfogultságát. A kutatás szerint azokban az országokban, ahol a kormány szoros felügyelet alatt tartja a sajtót és a tájékoztatást, az adott ország anyanyelvén működő mesterséges intelligencia rendszerek hajlamosak jóval kedvezőbb színben feltüntetni a politikai vezetést és az állami intézményeket. A szakértők 37 olyan nyelvet és országot vizsgáltak meg, ahol a beszélők jelentős része egyetlen állam határain belül él, és az eredmények egyértelmű összefüggést mutattak az állami médiakontroll mértéke és az AI válaszainak részrehajlása között. Ez azt jelenti, hogy a technológia, amelyet sokan objektív információforrásnak tekintenek, akaratlanul is a politikai propaganda közvetítőjévé válhat.
A kutatók elsőként Kína példáján keresztül elemezték mélyrehatóan a folyamatot, ahol a digitális ökoszisztéma és a nyelvhasználat is erősen központosított. A vizsgálat során kiderült, hogy a széles körben használt CulturaX adatbázisban található kínai nyelvű dokumentumok 1,64 százaléka közvetlenül állami forrásokból, például pártlapokból vagy a Xuexi Qiangguo alkalmazásból származik. Megdöbbentő adat, hogy a tanító készletekben az állami média dokumentumai negyvenegyszer gyakrabban fordulnak elő, mint a kínai nyelvű Wikipedia szócikkei. Ennek következményei a gyakorlatban is megmutatkoznak: a kereskedelmi LLM modellek látványosan pozitívabb válaszokat adnak a kínai politikai szereplőkről és intézményekről, ha kínai nyelven kérdezik őket, mintha ugyanezt a kérdést angolul tennék fel. A kísérleti fázisban egy LLaMa 2 13B modellt mindössze 6400 előre kiválogatott állami dokumentumon finomhangoltak, ami elegendő volt ahhoz, hogy a generált válaszok 80 százaléka rendszertámogatóvá váljon.
A módszertant globális szintre is kiterjesztették, összesen 6051 promptot használva különböző nyelveken, hogy reprodukálják az eredményeket. A kutatás bebizonyította, hogy a jelenség nem egyedi eset, hanem egy rendszerszintű probléma, amely minden olyan országot érint, ahol erős az állami médiakontroll. Az LLM-ek tanításához használt hatalmas adathalmazok elkerülhetetlenül magukba szívják az interneten elérhető tartalmakat, és ha egy adott nyelvterületen a kormányzati narratíva dominál, az AI ezt az eloszlást tekinti majd alapértelmezett igazságnak. Ez a folyamat egyfajta információs szűrőbuborékot hoz létre a mesterséges intelligencián belül, ahol a felhasználó a saját nyelvén nem feltétlenül objektív tényeket, hanem a helyi politikai érdekeknek megfelelő válaszokat kapja, miközben azt hiheti, hogy egy elfogulatlan technológiával kommunikál.
A tanulmány legfontosabb tanulsága, hogy az LLM-ek veszélyes közvetítőkké válhatnak, amelyek a stratégiai propagandát látszólag objektív, mesterséges intelligencia által generált információvá mossák át. Ez a mechanizmus rendkívül káros ösztönzőket hozhat létre a jövőben: a politikai szereplőknek érdekükben állhat, hogy még nagyobb mennyiségű elfogult tartalommal árasszák el a digitális teret, kifejezetten azzal a céllal, hogy formálják a jövőbeli AI kimeneteket. Ha a tanító adatokat sikerül ilyen módon manipulálni, az LLM-ek hosszú távon a dezinformációs kampányok hatékony eszközeivé válhatnak, elmosva a határvonalat a tényszerű tájékoztatás és az állami propaganda között. Ez a felfedezés rávilágít arra, hogy a fejlesztő cégeknek és kutatóknak sokkal nagyobb figyelmet kell fordítaniuk az adatkészletek összetételére és a modellek kulturális vagy politikai torzításainak kezelésére.
- A CulturaX adatbázisban található kínai nyelvű dokumentumok 1,64%-a mutat átfedést állami forrásból származó adatkészletekkel (Xuexi Qiangguo és pártlapok).
- A tanító készletben az állami média dokumentumai 41-szer gyakrabban fordulnak elő, mint a kínai nyelvű Wikipedia dokumentumok.
- Egy LLaMa 2 13B modell tanítása mindössze 6400 előre megírt állami dokumentumon az esetek 80%-ában rendszerpárti válaszokhoz vezetett.
- A tanulmány 6051 promptot használt különböző nyelveken (olyanokon, ahol a beszélők 70%-a egyetlen országban él), hogy globálisan is reprodukálják az eredményeket.
- Megállapították, hogy az erős állami médiakontrollal rendelkező országok hivatalos nyelvén generált válaszok jóval rendszerpártibbak az angol nyelvű kimenetekhez képest.
Az LLM-ek közvetítőként szolgálhatnak, amelyek a stratégiai propagandát látszólag objektív információvá „mossák át”. Ez arra ösztönözheti a politikai szereplőket, hogy tovább árasszák el az internetet elfogult tartalmakkal, hogy így alakítsák a jövőbeli AI kimeneteket.