Tech óriások 170 000 YouTube-videót használtak AI modellek tanításához

2026. május 24. · MI Történik? · 2 perc olvasás

A technológiai szektor meghatározó szereplői, köztük az Nvidia, az Apple és a Salesforce is érintett abban a legfrissebb vizsgálatban, amely rávilágított az AI modellek tanítási gyakorlatának sötét oldalára. A Wired oknyomozó riportja szerint ezek a nagyvállalatok több mint 170 000 YouTube-videó leiratát használták fel modelljeik képzéséhez anélkül, hogy az alkotók ehhez kifejezett engedélyt adtak volna. Ez az eset újabb lökést ad a mesterséges intelligencia fejlesztésével kapcsolatos adatfelhasználási etikai vitáknak, mivel sok alkotó számára teljesen váratlanul derült ki, hogy saját videóik tartalmát a tech ipar óriásai a saját üzleti céljaikra hasznosították.

A probléma gyökere abban a gyakorlatban keresendő, ahogyan az AI cégek a hatalmas mennyiségű tanítóadatot gyűjtik. Mivel az LLM modellek működéséhez elengedhetetlen a változatos és nagy mennyiségű szöveges adat, a vállalatok gyakran automatizált módszerekkel "szüretelik" az interneten elérhető tartalmakat. Az említett 170 000 videóból kinyert leiratok egy olyan kiterjedt adatkészlet részét képezték, amelyet az AI kutatásokhoz és fejlesztésekhez használtak fel. Az érintett cégek oldaláról az ilyen jellegű adatgyűjtés sokszor szürke zónának számít, ugyanakkor a tartalomkészítők szempontjából ez súlyos bizalmi válságot okoz, hiszen az általuk készített szellemi alkotást ők egyáltalán nem erre a célra szánták, és a felhasználásról semmilyen formában nem értesítették őket.

Ez a fejlemény azért különösen fontos, mert rávilágít arra a rendszerszintű problémára, hogy az AI iparág növekedési üteme sok esetben megelőzi a szabályozási környezetet és az etikai iránymutatásokat. Az Apple, az Nvidia és a Salesforce részvételével zajló történet élesen felveti a kérdést: hol húzódnak a tisztességes felhasználás határai, és milyen jogi keretek között szabadna egyáltalán publikus, de szerzői jogvédelem alatt álló tartalmakat felhasználni nagy értékű, kereskedelmi célú modellek betanítására. A technológiai óriásoknak a jövőben minden bizonnyal átláthatóbb módszereket kell találniuk az adatgyűjtésre, mivel a jelenlegi gyakorlat nemcsak a kreatív közösségek bizalmát rendíti meg, de komoly jogi kockázatokat is rejt magában a vállalatok számára, ahogy a szerzői jogok kérdése egyre inkább a bírósági tárgyalótermekbe kerül.

Az adatkészlet több mint 170 000 YouTube-videó leiratát tartalmazta
Olyan nagyvállalatok érintettek, mint az Apple, az Nvidia és a Salesforce
A tartalmakat az alkotók kifejezett engedélye nélkül használták fel
--

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az OpenAI nonprofit szervezeteknek és időseknek szóló forrásokkal bővíti az AI Akadémiát

2026. május 25.

Az OpenAI o3-mini-high modelljét használták egy bonyolult fizikai kutatási probléma megoldására

2026. május 25.

A Google elérhetővé tette a Gemini 2.5 Pro-t az API-n keresztül a fejlesztők számára

2026. május 25.

Tudj meg többet

AI modellek finomhangolása és egyedi fejlesztése: Lépj túl a generikus megoldásokon!

Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?