AZ AI JÖVŐJE
A webes adatgyűjtési szabványokat figyelmen kívül hagyó AI-cégek körüli ellentmondások
Évtizedek óta létezik a weboldalakon egy robots.txt nevű kódrészlet, amely úgy működik, mint egy múzeumi biztonsági őr. Azt üzeni: „Annyit nézheted az oldalunkat, amennyit csak akarod, de kérlek, ne vigyél el semmit.” Nos, egy TollBit nevű tartalomlicencelő startup szerint az AI-cégek mostanában záróra után osonnak be, és egyenesen a falról emelik le a dolgokat.
- Mik a bizonyítékok? A Wired és a Forbes technológiai szaklapok nemrég azt állították, hogy egyes cikkeiket a Perplexity AI-platform megfelelő forrásmegjelölés nélkül vette át és tette közzé újra. A TollBit azonban hangsúlyozta, hogy a probléma túlmutat bármelyik konkrét cégen: úgy tűnik, az OpenAI, az Anthropic és mások is figyelmen kívül hagyják ezeket a régi konvenciókat. „Minél több kiadói naplófájlt elemzünk, annál inkább kirajzolódik ez a minta” – írta a TollBit.
- Mi a védekezésük? Néhány AI-vállalat azt állítja, hogy ők csupán hivatkoznak más oldalak tartalmára, nem pedig lemásolják azokat – ez olyasmi, mintha egy fotót mutatnának a múzeumban lévő műalkotásról, miközben arra biztatják az embereket, hogy menjenek el és nézzék meg élőben. Az OpenAI a Business Insidernek elmondta, hogy minden alkalommal „figyelembe veszik” a webes engedélyeket, amikor új modellt tanítanak.
Miért fontos?
A helyzet megoldása nagymértékben azon múlik, hogyan értelmezi majd a Kongresszus és a Legfelsőbb Bíróság az AI által generált tartalmakat. Az emberek folyamatosan beépítik munkájukba a könyvekből, cikkekből és egyéb anyagokból szerzett ismereteket. De nem lehet valamit szóról szóra lemásolni és sajátként feltüntetni. Annak érdekében, hogy megfeleljenek a szerzői jogi törvényeknek, az AI-cégeknek valószínűleg bizonyítaniuk kell majd, hogy modelljeik valóban valami újat hoznak létre, nem pedig csak átrendezik a már megismert tartalmakat. ---