A Microsoft vizsgálja azokat az állításokat, miszerint a DeepSeek ellopta az OpenAI védett oktatási adatait
A Microsoft legfrissebb bejelentései komoly vihart kavartak a technológiai szektorban, miután a vállalat állítása szerint bizonyítékot találtak arra, hogy a kínai startup, a DeepSeek, engedély nélkül tulajdonított el az OpenAI védett oktatási adataiból. Az incidens lényege, hogy bár a felhasználók meghatározott keretek között fizethetnek az OpenAI bizonyos adataihoz való hozzáférésért, a vádak szerint egy a DeepSeekhez köthető rejtélyes csoport tavaly ősszel jóval meghaladta a megengedett mennyiséget, és jogosulatlanul jutott hozzá kritikus fontosságú információkhoz. Ez a vád alapjaiban kérdőjelezi meg a DeepSeek modelljeinek eddigi gyors fejlődését és az alkalmazott technológiai megközelítés tisztaságát.
Az ügy hátterében az az általános iparági probléma áll, hogy a modern AI modellek, mint a GPT-4 vagy a Claude 3.5, elképesztő mennyiségű, több billió adatponton alapuló oktatást igényelnek. Ahogy a technológiai vállalatok kezdik kimeríteni a hagyományos forrásokat, egyre inkább a reinforcement learning, azaz a megerősítéses tanulás felé fordulnak, ahol a modelleket a helyes döntésekért jutalmazzák, ami látványos ugrást eredményez a képességeikben. A DeepSeek kapcsán felmerült gyanú szerint a vállalat megkerülhette a fejlesztés rendkívül költséges és időigényes szakaszait. A feltételezések szerint úgynevezett desztillációt alkalmazhattak, amelynek során egy nagyobb és kiforrottabb modell kimeneteit használják fel egy kisebb modell gyorsabb és hatékonyabb betanítására. Ezzel a módszerrel a DeepSeek lényegében egy olyan architektúrát finomhangolt, amelynek eredeti fejlesztésére az OpenAI dollármilliókat költött, így jelentős versenyelőnyre tehettek szert a piaci innováció terén.
Ez a fejlemény élesen megosztotta a szakmai közvéleményt, és számos etikai, illetve biztonsági kérdést vet fel. Vannak, akik kritikus hangon jegyzik meg, hogy az OpenAI korábban maga is hasonló vádakkal szembesült, hiszen modelljei oktatásához szerzői joggal védett könyveket és weboldalak hatalmas mennyiségét használta fel, így szerintük a mostani helyzet egyfajta iróniát hordoz magában. Ezzel szemben mások, köztük David Sacks, az Egyesült Államok AI-biztosa, arra figyelmeztetnek, hogy most nem a kárörömnek van itt az ideje. Érvelésük szerint az ehhez hasonló incidensek komoly nemzetbiztonsági kockázatot jelentenek, és precedenst teremthetnek a további másolók számára, ami hosszú távon alááshatja az USA vezető szerepét az AI-fejlesztésekben. A helyzet súlyosságát jelzi, hogy a piaci verseny már nemcsak az innovációról, hanem az adatok védelméről és az ilyen típusú visszaélések elleni védekezésről is szól.
A hír megosztotta az iparágat: egyes kritikusok szerint az OpenAI megérdemelte a sorsát, miután szerzői joggal védett könyveket és weboldalakat használt saját modelljeihez. Mások, köztük az Egyesült Államok AI-biztosa, David Sacks szerint most nincs helye a kárörömnek. Úgy érvelnek, hogy az állítólagos incidens komoly biztonsági aggályokat vet fel, és megnyithatja a kaput a további másolók előtt – aláásva ezzel az USA piacvezető szerepét a folyamatban. ---