A generatív képklasszifikátorok emberihez hasonló forma-torzítást és hibamintákat mutatnak
A Google DeepMind kutatói kimutatták, hogy a generatív klasszifikátorok – generatív modelleken alapuló képfelismerő rendszerek – négy, meglepően emberi tulajdonsággal rendelkeznek. Az eredmények azért érdekesek, mert rávilágítanak arra, hogy az AI rendszerek teljesítményének javulásával ezek a rendszerek emberihez hasonló tulajdonságokat mutatnak bizonyos feladatok megoldása során. A kutatók három generatív modellt teszteltek: a Google Imagen és Parti modelljeit, valamint az open-source Stable Diffusion-t.
- Az Imagen 99%-os forma-torzítást (shape bias) ért el, ami megegyezik az emberek formák iránti preferenciájával a textúrákkal szemben, míg a Stable Diffusion 93%-ot ért el.
- Az Imagen és a Stable Diffusion az emberi szintű robusztussághoz közeli összpontszámot ért el, annak ellenére, hogy zero-shot modellek.
- A modellek hibái átfedést mutatnak az emberi hibákkal; ugyanazoknál a feladatoknál buknak el, amelyeket az emberek is hajlamosak elrontani.
- A rendszerek képesek felismerni és újraalkotni a bisztabil illúziókat (mint a kacsa-nyúl ábra) és a pareidolia eseteit.
- Ezek a generatív modellek felülmúlják a korábbi ViT-22B modellt az emberihez igazodó hibaminták tekintetében.
Miért fontos?
Ez azt sugallja, hogy ha elég számítási kapacitást (compute) fektetünk az AI rendszerekbe, és ezt a megfelelő célfüggvénnyel párosítjuk, néha olyan rendszereket hozhatunk létre, amelyek az emberhez hasonló trükkökkel tanulják meg a problémák megoldását, ahelyett, hogy különös vagy nem emberi módon kezelnék azokat. ---