A Stanford kiadta a GPIC-et: 100 millió szabadon felhasználható kép az oktatáshoz
A Stanford University kutatói a Radical Numerics, a University of Michigan és a Salesforce Research szakembereivel együttműködve egy hatalmas, mérföldkőnek számító adatkészletet tettek közzé Giant Permissive Image Corpus (GPIC) néven. A projekt célja egy olyan monumentális forrás biztosítása a gépi tanulás számára, amely 100 millió képből és a hozzájuk tartozó leírásokból áll. A GPIC legfontosabb megkülönböztető jegye a permisszív, azaz rendkívül megengedő licencelés: minden egyes kép szabadon felhasználható kutatási és kereskedelmi célokra egyaránt. Az adatkészletet központilag a Hugging Face platformján tárolják, biztosítva a stabil és hozzáférhető infrastruktúrát a globális AI közösség számára a nagyüzemi oktatáshoz.
Technikai szempontból a GPIC felépítése rendkívül alapos: a 100 milliós tanítóhalmaz mellett 200 ezer validációs és egymillió tesztpéldát tartalmaz. A kutatók nagy hangsúlyt fektettek az adatok minőségére és használhatóságára, ezért minden egyes képhez a modern Qwen3-VL-4B modellel generáltak részletes feliratokat és kontextust. A teljes korpusz 8000 shard formájában érhető el, ami lehetővé teszi a skálázható feldolgozást és a hatékony betöltést a tréningek során. A képek forrásául olyan közismert platformok szolgáltak, mint a Flickr és a Wikimédia, azonban a szelekció során szigorú licencelési szűrőket alkalmaztak. Csak olyan tartalmak kerülhettek be a válogatásba, amelyek CC BY, CC0, Public Domain vagy No-Known-Restrictions kategóriába tartoznak, így garantálva a teljes jogi biztonságot a felhasználók számára.
Az adatkészlet jelentősége túlmutat a puszta méreteken, hiszen a modern AI fejlesztés egyik legnagyobb gátja jelenleg a szerzői jogi viták és a korlátozottan felhasználható adatok tömege. A GPIC ezen a téren hoz áttörést, mivel biztonsági szűrt és duplikációmentesített alapanyagot kínál, amely mentes a jogi bonyodalmaktól és a későbbi korlátozásoktól. Ez a megközelítés biztosítja, hogy mind az akadémiai, mind az ipari kutatók szabadon építkezhessenek az adatokra anélkül, hogy tartaniuk kellene a származtatott termékek kiadásának akadályaitól.
Egy ilyen tiszta és legális adathalmaz az AI világában olyan, mint az ingyenes és tiszta zöldség a konyhában: alapvető fontosságú, kiváló minőségű összetevő, amelyet minden fejlesztőnek érdemes felhasználnia. A GPIC megjelenése különösen a startupok és az egyetemi kutatóműhelyek számára bír nagy jelentőséggel, mivel jelentősen csökkenti a belépési küszöböt a nagy vizuális modellek tanítása terén. Az open-source közösség ezzel egy olyan stabil alapot kapott, amelyre hosszú távon is biztonságosan építhető az AI következő generációja.
- Adatkészlet mérete: 100 millió tanítási, 200 ezer validációs, 1 millió tesztkép.
- Feliratok: Qwen3-VL-4B használatával generálva.
- Infrastruktúra: 8000 shard-ban tárolva a Hugging Face-en.
- Licencelés: CC BY, CC0, Public Domain és No-Known-Restrictions kategóriákra korlátozva.
- Biztonság: A korpusz biztonsági szűrt és duplikációmentesített.
Az olyan adatkészletek, mint a GPIC, rendkívül hasznosak az akadémikusok és a startupok számára egyaránt; olyanok, mint az ingyenes, tiszta zöldségek. Ha valaki ingyen, tiszta zöldséget kínál neked, valószínűleg el kell fogadnod, és meg kell köszönnöd.