AI IMPACT
A gyenge minőségű gépi fordítás dominálja a kevés erőforrással rendelkező nyelvek webes tartalmait
Az Amazon kutatói felfedezték, hogy az olcsó és bőségesen elérhető gépi fordítás rontja a kevés erőforrással rendelkező nyelvekhez (low-resource languages) kapcsolódó lefordított szövegek minőségét. „A gépi úton generált, többirányú párhuzamos fordítások nemcsak a lefordított tartalmak teljes mennyiségét uralják az interneten a kevesebb erőforrással rendelkező nyelveken, hanem ezen nyelvek teljes webes tartalmának jelentős részét is kiteszik” – írják.
A kutatáshoz a szerzők létrehozták a „web többirányú párhuzamos reprezentációját”. Ezt úgy érték el, hogy hatalmas mennyiségű, két vagy több mondatból álló, különböző nyelvű fordítási halmazt gyűjtöttek össze, ami egy körülbelül 6,4 milliárd mondatból álló korpuszt eredményezett.
Elemzésük azt mutatja, hogy annak valószínűsége, hogy egy szöveg gépi fordítással készült, a szöveg párhuzamos fordításainak számával együtt nő. Ez azt jelenti, hogy azokat a nyelveket, amelyek természetes módon nem szerepelnek sok fordítási korpuszban (például a kevés erőforrással rendelkező nyelvek), sokkal nagyobb eséllyel fordítják le géppel. „A kevesebb erőforrással rendelkező nyelvek összes mondatának nagy része rendelkezik legalább egy fordítással, ami azt jelenti, hogy e nyelvek teljes webes tartalmának jelentős része gépi fordítással (MT) készült” – írják a kutatók.
A témákban is változást figyeltek meg – ahogy nő a párhuzamosan lefordított nyelvek száma, a „Beszélgetés és Vélemény” témakörök aránya jelentősen emelkedik. Ez korrelálni látszik a gyenge minőségű reklámbevételek generálására optimalizált cikkekkel, amelyek olyan témákat dolgoznak fel, amelyek létrehozásához „kevés vagy semmilyen szakértelem vagy előzetes erőfeszítés nem szükséges, például: hogyan vegyenek komolyabban a munkahelyen, legyünk óvatosak a döntéseinkkel, hat tipp az új hajótulajdonosoknak, döntsünk a boldogság mellett, stb.”. Elemzésük arra is rámutat, hogy ez a folyamat angol nyelvről indul, és onnan fordítják le más nyelvekre.
- Egy 6,4 milliárd mondatos korpusz elemzése azt mutatja, hogy a gépi fordítás dominálja a kevés erőforrással rendelkező nyelvek tartalmát.
- A géppel generált szövegek aránya nő a párhuzamos nyelvi fordítások számának növekedésével.
- A tartalom gyakran gyenge minőségű, hirdetés-vezérelt, és angol nyelvről származik.
- A kevés erőforrással rendelkező nyelveket az a veszély fenyegeti, hogy elsősorban pontatlan vagy általános gépi fordítású szövegek reprezentálják őket.
- A trend egyfajta „lokális minimumot” sugall, ahol a hiányos adatok a digitális nyelvi reprezentáció további romlásához vezetnek.
Miért fontos?
Ahogy egyre több AI-eszköz terjed el világszerte, tartok tőle, hogy kialakul egyfajta „a gazdag még gazdagabb lesz, a szegény pedig szegényebb” hatás – itt a „gazdag” nyelvek egyre jobb fordításokat kapnak más nyelvekre (amit az eleve erős adatbázis és a hatalmas mennyiségű tartalom is támogat), míg a „szegény” nyelvek digitális reprezentációja degradálódhat. Ezek a nyelvek beszorulhatnak egy lokális minimumba, mivel az automatizált fordítómotorok a már amúgy is ritka adatok alapján rossz minőségű fordítások egyre táguló felhőjével népesítik be az internetet. ---