Az Atlantic hatalmas, engedély nélküli zenegyűjteményeket talált, amelyeket AI képzésre használtak

1 órája · MI Történik? · 2 perc olvasás

Az Atlantic nemrégiben közzétett vizsgálata rávilágított az egyik legnagyobb problémára, amivel a generatív AI iparág jelenleg küzd: a hatalmas mennyiségű, engedély nélkül felhasznált adatokra. A lap újságírói négy olyan gigantikus zenegyűjteményt azonosítottak, amelyeket kifejezetten AI modellek tanítására hoztak létre, és amelyek összesen több millió zeneszámot tartalmaznak. Ezek az adatbázisok képezik az alapját számos olyan algoritmusnak, amelyek ma már képesek zenét komponálni, énekhangot generálni vagy stílusokat utánozni, azonban a felhasználásuk mögött ritkán áll a jogtulajdonosok valódi hozzájárulása. Ez a felfedezés újabb bizonyítékot szolgáltat arra, hogy a technológiai szektor és a kreatív ipar közötti konfliktus sokkal mélyebb és rendszerszintűbb, mint azt korábban gondoltuk.

A szóban forgó adatbázisok jelentősége a méretükben és a könnyű hozzáférhetőségükben rejlik. Az Atlantic jelentése szerint ezeket a gyűjteményeket gyakran open-source platformokon vagy kutatói hálózatokon keresztül osztották meg, így bárki számára elérhetővé váltak, aki rendelkezik a megfelelő technikai háttérrel és nagy teljesítményű GPU erőforrásokkal a modellek futtatásához. A gyűjteményekben nemcsak névtelen amatőrök feltöltései, hanem világsztárok és nagy kiadók által gondozott művek is szerepelnek, gyakran részletes metaadatokkal kiegészítve. Ezek az adatok megkönnyítik az AI számára a zenei stílusok, hangszerek és érzelmi tónusok azonosítását és leutánzását. Az ilyen típusú web scraping és adatgyűjtés lehetővé tette a fejlesztők számára, hogy megkerüljék a hagyományos licencelési folyamatokat, amelyek egyébként dollármilliárdokba kerültek volna a cégeknek.

Ez a gyakorlat súlyos etikai és jogi kérdéseket vet fel, hiszen a zeneipar képviselői szerint az AI-fejlesztők kisajátítják a művészek szellemi termékeit anélkül, hogy bármiféle ellentételezést kínálnának. A zenészek és a kiadók úgy látják, hogy a technológiai óriások és a startup vállalkozások az ő munkájukat használják fel olyan eszközök létrehozására, amelyek később éppen a hivatásos zenészek megélhetését veszélyeztethetik. Az AI modellek tanítása során felhasznált adatok eddig gyakran egyfajta „fekete dobozként” működtek: a kimeneti oldalon hallható eredmény lenyűgöző, de a bemeneti oldalon felhasznált millió és millió jogvédett dal eredete homályba veszett. A most felfedezett négy gyűjtemény azonban láthatóvá teszi a folyamat azon részét, amelyet a fejlesztők érthető módon szívesebben tartanának titokban a jogi következményektől tartva.

Végső soron az Atlantic kutatása kulcsfontosságú momentum lehet a zeneipar és az AI-szektor közötti tárgyalásokban. Ahogy a szabályozó hatóságok világszerte próbálnak kereteket szabni a mesterséges intelligencia használatának, az ilyen konkrét bizonyítékok, amelyek dokumentálják a szerzői jogok tömeges és engedély nélküli felhasználását, katalizátorként hathatnak az új törvények megalkotására. Nem csupán elméleti vitáról van szó, hanem arról a gazdasági realitásról, hogy kié az adat és kinek jár érte fizetség. A technológiai cégeknek előbb-utóbb el kell számolniuk azzal, hogy az innováció nem épülhet a kreatív közösségek teljes megkerülésére, és a jövőben valószínűleg egyre több hasonló adatbázis kerül majd nyilvánosságra, tovább növelve a nyomást a fejlesztőkön és a szabályozókon egyaránt.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az USA figyelmeztette az ASML-t a Kínába kerülő fejlett chipgyártó eszközök miatt

1 órája

Az Amazon MGM Studios ejtette a Sam Altmanról szóló 'Artificial' című filmet

1 órája

Az AI okozta zavarok elérték az Accenture-t: csökken a tanácsadási igény

most