AI KUTATÁS
A Google ImageInWords keretrendszere hiperrészletes leírásokat generál képadatbázisokhoz
A Google kifejlesztette az ImageInWords (IIW) nevű, gondosan megtervezett, emberi közreműködésen alapuló (human-in-the-loop) annotációs keretrendszert hiperrészletes képleírások készítéséhez, valamint egy új adatbázist is létrehoztak a folyamat eredményeként. Az ötlet lényege, hogy megkönnyítsék a (valódi vagy számítógéppel generált) képek részletesebb feliratozását; így a "Macska a széken" felirat helyett rendkívül specifikus leírásokat kaphatunk a színekre, világításra, anyagokra és a háttérkörnyezetre vonatkozóan. Összességében a keretrendszer kiváló minőségű képleírási adatokat szolgáltat, amelyek hatékony fine-tuning adatbázisként szolgálnak.
- Objektumdetektorokat használ a képen lévő egyedi objektumok azonosítására a folyamat elején.
- Egy VLM szemcsés leírásokat generál minden egyes észlelt objektumhoz az adatok előkészítéseként.
- Közösségi munkások (crowd workers) bővítik és javítják az objektumszintű feliratokat a hallucinációk eltávolítása érdekében.
- A végső képszintű leírás a VLM alapok és az ember által javított objektumadatok összevonásával jön létre.
- A folyamat egy 9018 képből álló, hiperrészletes leírásokkal ellátott adatbázist eredményezett.
Miért fontos?
Az IIW segít abban, hogy könnyebben taníthassunk olyan AI rendszereket, amelyek az igényeinknek jobban megfelelő képeket generálnak, emellett megkönnyíti a képek sokszempontú osztályozását is. ---