A Google ImageInWords keretrendszere hiperrészletes leírásokat generál képadatbázisokhoz
A Google kifejlesztette az ImageInWords (IIW) nevű, gondosan megtervezett, emberi közreműködésen alapuló (human-in-the-loop) annotációs keretrendszert hiperrészletes képleírások készítéséhez, valamint egy új adatbázist is létrehoztak a folyamat eredményeként. Az ötlet lényege, hogy megkönnyítsék a (valódi vagy számítógéppel generált) képek részletesebb feliratozását; így a "Macska a széken" felirat helyett rendkívül specifikus leírásokat kaphatunk a színekre, világításra, anyagokra és a háttérkörnyezetre vonatkozóan. Összességében a keretrendszer kiváló minőségű képleírási adatokat szolgáltat, amelyek hatékony fine-tuning adatbázisként szolgálnak.
- Objektumdetektorokat használ a képen lévő egyedi objektumok azonosítására a folyamat elején.
- Egy VLM szemcsés leírásokat generál minden egyes észlelt objektumhoz az adatok előkészítéseként.
- Közösségi munkások (crowd workers) bővítik és javítják az objektumszintű feliratokat a hallucinációk eltávolítása érdekében.
- A végső képszintű leírás a VLM alapok és az ember által javított objektumadatok összevonásával jön létre.
- A folyamat egy 9018 képből álló, hiperrészletes leírásokkal ellátott adatbázist eredményezett.
Az IIW segít abban, hogy könnyebben taníthassunk olyan AI rendszereket, amelyek az igényeinknek jobban megfelelő képeket generálnak, emellett megkönnyíti a képek sokszempontú osztályozását is. ---