MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra
A Stanford kiadta a GPIC-et: 100 millió szabadon felhasználható kép az oktatáshoz

A Stanford kiadta a GPIC-et: 100 millió szabadon felhasználható kép az oktatáshoz

A Stanford University kutatói a Radical Numerics, a University of Michigan és a Salesforce Research szakembereivel együttműködve egy hatalmas, mérföldkőnek számító adatkészletet tettek közzé Giant Permissive Image Corpus (GPIC) néven. A projekt célja egy olyan monumentális forrás biztosítása a gépi tanulás számára, amely 100 millió képből és a hozzájuk tartozó leírásokból áll. A GPIC legfontosabb megkülönböztető jegye a permisszív, azaz rendkívül megengedő licencelés: minden egyes kép szabadon felhasználható kutatási és kereskedelmi célokra egyaránt. Az adatkészletet központilag a Hugging Face platformján tárolják, biztosítva a stabil és hozzáférhető infrastruktúrát a globális AI közösség számára a nagyüzemi oktatáshoz.

Technikai szempontból a GPIC felépítése rendkívül alapos: a 100 milliós tanítóhalmaz mellett 200 ezer validációs és egymillió tesztpéldát tartalmaz. A kutatók nagy hangsúlyt fektettek az adatok minőségére és használhatóságára, ezért minden egyes képhez a modern Qwen3-VL-4B modellel generáltak részletes feliratokat és kontextust. A teljes korpusz 8000 shard formájában érhető el, ami lehetővé teszi a skálázható feldolgozást és a hatékony betöltést a tréningek során. A képek forrásául olyan közismert platformok szolgáltak, mint a Flickr és a Wikimédia, azonban a szelekció során szigorú licencelési szűrőket alkalmaztak. Csak olyan tartalmak kerülhettek be a válogatásba, amelyek CC BY, CC0, Public Domain vagy No-Known-Restrictions kategóriába tartoznak, így garantálva a teljes jogi biztonságot a felhasználók számára.

Az adatkészlet jelentősége túlmutat a puszta méreteken, hiszen a modern AI fejlesztés egyik legnagyobb gátja jelenleg a szerzői jogi viták és a korlátozottan felhasználható adatok tömege. A GPIC ezen a téren hoz áttörést, mivel biztonsági szűrt és duplikációmentesített alapanyagot kínál, amely mentes a jogi bonyodalmaktól és a későbbi korlátozásoktól. Ez a megközelítés biztosítja, hogy mind az akadémiai, mind az ipari kutatók szabadon építkezhessenek az adatokra anélkül, hogy tartaniuk kellene a származtatott termékek kiadásának akadályaitól.

Egy ilyen tiszta és legális adathalmaz az AI világában olyan, mint az ingyenes és tiszta zöldség a konyhában: alapvető fontosságú, kiváló minőségű összetevő, amelyet minden fejlesztőnek érdemes felhasználnia. A GPIC megjelenése különösen a startupok és az egyetemi kutatóműhelyek számára bír nagy jelentőséggel, mivel jelentősen csökkenti a belépési küszöböt a nagy vizuális modellek tanítása terén. Az open-source közösség ezzel egy olyan stabil alapot kapott, amelyre hosszú távon is biztonságosan építhető az AI következő generációja.

Miért fontos?

Az olyan adatkészletek, mint a GPIC, rendkívül hasznosak az akadémikusok és a startupok számára egyaránt; olyanok, mint az ingyenes, tiszta zöldségek. Ha valaki ingyen, tiszta zöldséget kínál neked, valószínűleg el kell fogadnod, és meg kell köszönnöd.

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
A Waymo és mások robotaxi-teszteket indítanak európai nagyvárosokban
most
Az XPeng vezérigazgatója irányítja a humanoid robotok sorozatgyártását
most
Boston Dynamics Spot robotok járőröznek a 2026-os FIFA Világbajnokság stadionjaiban
most