AI KUTATÁS
A Google 22 milliárd paraméteresre skálázza a Vision Transformereket
A Google kutatói lecserélték a szabványos, nagyléptékű számítógépes látásmodellek alapjait egy Vision Transformer (ViT) architektúrára, amely a szöveges tartományokban már bizonyított transformereken alapul. Ezt a ViT-et 22 milliárd paraméterre skálázták (a korábbi 4 milliárdos rekordról). Az eredmények meggyőzőek, és a nyelvi modelleknél látott skálázási hatásokat tükrözik: „A későbbi feladatokon végzett értékelés során a ViT-22B a skálázással javuló teljesítményt mutat. További érdekes előnyöket is megfigyeltünk, többek között jobb kompromisszumot a méltányosság és a teljesítmény között, csúcstechnológiás illeszkedést az emberi vizuális észleléshez az alak/textúra torzítás tekintetében, valamint fokozott robusztusságot.” A Google rendelkezik egy többnyire titkos, óriási képadatkészlettel „JFT” néven, amelyről korábban úgy hírlett, hogy 300 millió képet tartalmaz. A tanulmány szerint a ViT-22B-t a JFT egy olyan verzióján tanították, amelyet „körülbelül 4 milliárd képre bővítettek”. „A ViT-22B modellek rendelkeznek a látásmodellek között az eddigi legmagasabb alak-torzítással: míg a legtöbb modell erős textúra-torzítással bír (kb. 20–30% alak / 70–80% textúra); az emberek 96% alak / 4% textúra aránynál tartanak, a ViT-22B-384 pedig eddig soha nem látott 87% alak / 13% textúra arányt ért el. Összességében a ViT-22B mérhetően javítja az illeszkedést az emberi vizuális objektumfelismeréshez” – írják a szerzők.
- A ViT-22B a skálázással növekvő teljesítményt mutat.
- Jobb kompromisszum a méltányosság és a teljesítmény között, valamint fokozott robusztusság.
- Csúcstechnológiás illeszkedés az emberi vizuális észleléshez az alak/textúra torzítás terén.
- Egy bővített JFT adatkészleten tanították, amely körülbelül 4 milliárd képet tartalmaz.
- Eddig nem látott 87%-os alak-torzítást ért el, szemben az embereknél mért 96%-kal.
Miért fontos?
Van egy furcsa trend a kortárs AI-ban: ahogy növeljük a transformer-architektúrájú modellekbe táplált előtanítási adatok mennyiségét, olyan rendszereket kapunk, amelyek emberi tulajdonságokat mutatnak. Ez a ViT-22B eredmény jelentős ugrást mutat az alak/textúra torzításban, ami a rendszert az emberi vizuális észlelés tartományába emeli, miközben a korábbi konvolúciós hálózatokon alapuló rendszerek ettől messze elmaradtak. A transformerek úgy tűnik, lehetővé teszik az emergens összetettséget a skálázás során. ---