Az AI-modellek képesek kitalálni a személyes adatokat anonim szövegekből
Az AI-modellek képesek kitalálni a személyes adatokat látszólag teljesen anonim szövegekből is, ami új, eddig ismeretlen dimenziókat nyit meg az adatvédelem terén. Egy nemzetközi kutatócsoport vizsgálata rámutatott, hogy az OpenAI, a Google, a Meta és az Anthropic által fejlesztett vezető AI-modellek aggasztó pontossággal képesek kikövetkeztetni egyénekről olyan érzékeny információkat, mint a rassz, a tartózkodási hely, vagy éppen a pontos foglalkozás. A szakértők szerint a jelenlegi LLM-ek korábban elképzelhetetlen léptékben és hatékonysággal képesek elemezni a nyers adatokat, ami alapjaiban kérdőjelezi meg az eddigi anonimizálási törekvések hatékonyságát.
A kutatás eredményei különösen riasztóak, hiszen a modellek 85% és 95% közötti pontossággal voltak képesek magánjellegű adatokat kikövetkeztetni egyszerű, nyilvánosan elérhető közösségi média posztokból vagy egyéb írott szövegekből. A folyamat során az AI nem feltétlenül explicit állításokból dolgozik, hanem komplex összefüggéseket keres. A tanulmány egyik szerzője egy szemléletes példával illusztrálta a problémát: a modellek képesek voltak azonosítani egy szövegíró faji hovatartozását pusztán abból az információból, hogy az illető egy bizonyos New York-i étterem közelében él. Az AI ezt az adatot összevetette a környék demográfiai népességi statisztikáival, és a statisztikai valószínűség alapján pontos következtetést vont le.
Ez a technológiai képesség komoly biztonsági kockázatokat rejt magában, mivel a kiberbűnözők számára eddig nehezen elérhető információkat tesz könnyen kinyerhetővé. A csalók és hackerek számára immár elegendő lehet a célpontok nyilvánosan elérhető bejegyzéseit vagy kommentjeit betáplálni egy AI-modellbe, hogy részletes profilt kapjanak az áldozatokról, még akkor is, ha azok semmilyen konkrét személyes adatot nem tettek közzé magukról. A kutatók szerint a megállapítások súlyos következményekkel járhatnak az online biztonságra és a magánszféra védelmére nézve, hiszen az eddig biztonságosnak hitt, anonimizált adatok valójában könnyedén visszafordíthatóak és beazonosíthatóak az új generációs modellek számára. A helyzet rávilágít arra, hogy a technológia fejlődésével az adatvédelem fogalma is átértékelődik, és a jövőben sokkal óvatosabbnak kell lennünk az online megosztott tartalmak kapcsán.
Miért fontos ez: Ha a megállapítások igazak, annak súlyos következményei lehetnek az online biztonságra nézve, mivel a csalók és hackerek nyilvánosan elérhető szövegekkel és közösségi média posztokkal táplálhatják be az AI-modelleket, hogy személyes adatokat tudjanak meg a célpontjaikról. ---