Az államilag ellenőrzött média közvetlenül befolyásolja a nagy nyelvi modellek politikai elfogultságát

2026. június 9. · MI Történik? · 3 perc olvasás

A Nature folyóiratban nemrégiben megjelent tanulmány rávilágított egy aggasztó jelenségre: az államilag ellenőrzött média közvetlenül és mérhetően befolyásolja a nagy nyelvi modellek (LLM) politikai elfogultságát. A kutatás szerint azokban az országokban, ahol a kormány szoros felügyelet alatt tartja a sajtót és a tájékoztatást, az adott ország anyanyelvén működő mesterséges intelligencia rendszerek hajlamosak jóval kedvezőbb színben feltüntetni a politikai vezetést és az állami intézményeket. A szakértők 37 olyan nyelvet és országot vizsgáltak meg, ahol a beszélők jelentős része egyetlen állam határain belül él, és az eredmények egyértelmű összefüggést mutattak az állami médiakontroll mértéke és az AI válaszainak részrehajlása között. Ez azt jelenti, hogy a technológia, amelyet sokan objektív információforrásnak tekintenek, akaratlanul is a politikai propaganda közvetítőjévé válhat.

A kutatók elsőként Kína példáján keresztül elemezték mélyrehatóan a folyamatot, ahol a digitális ökoszisztéma és a nyelvhasználat is erősen központosított. A vizsgálat során kiderült, hogy a széles körben használt CulturaX adatbázisban található kínai nyelvű dokumentumok 1,64 százaléka közvetlenül állami forrásokból, például pártlapokból vagy a Xuexi Qiangguo alkalmazásból származik. Megdöbbentő adat, hogy a tanító készletekben az állami média dokumentumai negyvenegyszer gyakrabban fordulnak elő, mint a kínai nyelvű Wikipedia szócikkei. Ennek következményei a gyakorlatban is megmutatkoznak: a kereskedelmi LLM modellek látványosan pozitívabb válaszokat adnak a kínai politikai szereplőkről és intézményekről, ha kínai nyelven kérdezik őket, mintha ugyanezt a kérdést angolul tennék fel. A kísérleti fázisban egy LLaMa 2 13B modellt mindössze 6400 előre kiválogatott állami dokumentumon finomhangoltak, ami elegendő volt ahhoz, hogy a generált válaszok 80 százaléka rendszertámogatóvá váljon.

A módszertant globális szintre is kiterjesztették, összesen 6051 promptot használva különböző nyelveken, hogy reprodukálják az eredményeket. A kutatás bebizonyította, hogy a jelenség nem egyedi eset, hanem egy rendszerszintű probléma, amely minden olyan országot érint, ahol erős az állami médiakontroll. Az LLM-ek tanításához használt hatalmas adathalmazok elkerülhetetlenül magukba szívják az interneten elérhető tartalmakat, és ha egy adott nyelvterületen a kormányzati narratíva dominál, az AI ezt az eloszlást tekinti majd alapértelmezett igazságnak. Ez a folyamat egyfajta információs szűrőbuborékot hoz létre a mesterséges intelligencián belül, ahol a felhasználó a saját nyelvén nem feltétlenül objektív tényeket, hanem a helyi politikai érdekeknek megfelelő válaszokat kapja, miközben azt hiheti, hogy egy elfogulatlan technológiával kommunikál.

A tanulmány legfontosabb tanulsága, hogy az LLM-ek veszélyes közvetítőkké válhatnak, amelyek a stratégiai propagandát látszólag objektív, mesterséges intelligencia által generált információvá mossák át. Ez a mechanizmus rendkívül káros ösztönzőket hozhat létre a jövőben: a politikai szereplőknek érdekükben állhat, hogy még nagyobb mennyiségű elfogult tartalommal árasszák el a digitális teret, kifejezetten azzal a céllal, hogy formálják a jövőbeli AI kimeneteket. Ha a tanító adatokat sikerül ilyen módon manipulálni, az LLM-ek hosszú távon a dezinformációs kampányok hatékony eszközeivé válhatnak, elmosva a határvonalat a tényszerű tájékoztatás és az állami propaganda között. Ez a felfedezés rávilágít arra, hogy a fejlesztő cégeknek és kutatóknak sokkal nagyobb figyelmet kell fordítaniuk az adatkészletek összetételére és a modellek kulturális vagy politikai torzításainak kezelésére.

A CulturaX adatbázisban található kínai nyelvű dokumentumok 1,64%-a mutat átfedést állami forrásból származó adatkészletekkel (Xuexi Qiangguo és pártlapok).
A tanító készletben az állami média dokumentumai 41-szer gyakrabban fordulnak elő, mint a kínai nyelvű Wikipedia dokumentumok.
Egy LLaMa 2 13B modell tanítása mindössze 6400 előre megírt állami dokumentumon az esetek 80%-ában rendszerpárti válaszokhoz vezetett.
A tanulmány 6051 promptot használt különböző nyelveken (olyanokon, ahol a beszélők 70%-a egyetlen országban él), hogy globálisan is reprodukálják az eredményeket.
Megállapították, hogy az erős állami médiakontrollal rendelkező országok hivatalos nyelvén generált válaszok jóval rendszerpártibbak az angol nyelvű kimenetekhez képest.

Miért fontos?

Az LLM-ek közvetítőként szolgálhatnak, amelyek a stratégiai propagandát látszólag objektív információvá „mossák át”. Ez arra ösztönözheti a politikai szereplőket, hogy tovább árasszák el az internetet elfogult tartalmakkal, hogy így alakítsák a jövőbeli AI kimeneteket.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Ultra-realisztikus luxustermék-reklámképek generálása

6 órája

A BackSearch lehetővé teszi a weben való keresést konkrét múltbeli dátumokra

9 órája

A Notion bevezette a „Notion as code” koncepciót a munkaterületek üzembe helyezéséhez

9 órája

Tudj meg többet

Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?

AI a közösségi média stratégiában: tartalomtervezés és automatizálás