MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Tech óriások 170 000 YouTube-videót használtak AI modellek tanításához

Tech óriások 170 000 YouTube-videót használtak AI modellek tanításához

A technológiai szektor meghatározó szereplői, köztük az Nvidia, az Apple és a Salesforce is érintett abban a legfrissebb vizsgálatban, amely rávilágított az AI modellek tanítási gyakorlatának sötét oldalára. A Wired oknyomozó riportja szerint ezek a nagyvállalatok több mint 170 000 YouTube-videó leiratát használták fel modelljeik képzéséhez anélkül, hogy az alkotók ehhez kifejezett engedélyt adtak volna. Ez az eset újabb lökést ad a mesterséges intelligencia fejlesztésével kapcsolatos adatfelhasználási etikai vitáknak, mivel sok alkotó számára teljesen váratlanul derült ki, hogy saját videóik tartalmát a tech ipar óriásai a saját üzleti céljaikra hasznosították.

A probléma gyökere abban a gyakorlatban keresendő, ahogyan az AI cégek a hatalmas mennyiségű tanítóadatot gyűjtik. Mivel az LLM modellek működéséhez elengedhetetlen a változatos és nagy mennyiségű szöveges adat, a vállalatok gyakran automatizált módszerekkel "szüretelik" az interneten elérhető tartalmakat. Az említett 170 000 videóból kinyert leiratok egy olyan kiterjedt adatkészlet részét képezték, amelyet az AI kutatásokhoz és fejlesztésekhez használtak fel. Az érintett cégek oldaláról az ilyen jellegű adatgyűjtés sokszor szürke zónának számít, ugyanakkor a tartalomkészítők szempontjából ez súlyos bizalmi válságot okoz, hiszen az általuk készített szellemi alkotást ők egyáltalán nem erre a célra szánták, és a felhasználásról semmilyen formában nem értesítették őket.

Ez a fejlemény azért különösen fontos, mert rávilágít arra a rendszerszintű problémára, hogy az AI iparág növekedési üteme sok esetben megelőzi a szabályozási környezetet és az etikai iránymutatásokat. Az Apple, az Nvidia és a Salesforce részvételével zajló történet élesen felveti a kérdést: hol húzódnak a tisztességes felhasználás határai, és milyen jogi keretek között szabadna egyáltalán publikus, de szerzői jogvédelem alatt álló tartalmakat felhasználni nagy értékű, kereskedelmi célú modellek betanítására. A technológiai óriásoknak a jövőben minden bizonnyal átláthatóbb módszereket kell találniuk az adatgyűjtésre, mivel a jelenlegi gyakorlat nemcsak a kreatív közösségek bizalmát rendíti meg, de komoly jogi kockázatokat is rejt magában a vállalatok számára, ahogy a szerzői jogok kérdése egyre inkább a bírósági tárgyalótermekbe kerül.

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
Az OpenAI nonprofit szervezeteknek és időseknek szóló forrásokkal bővíti az AI Akadémiát
6 napja
Az OpenAI o3-mini-high modelljét használták egy bonyolult fizikai kutatási probléma megoldására
6 napja
A Google elérhetővé tette a Gemini 2.5 Pro-t az API-n keresztül a fejlesztők számára
6 napja
Tudj meg többet
Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?