SZÁMÍTÓGÉPES LÁTÁS
A Meta kiadta a Segment Anything alapmodellt általános célú képszegmentáláshoz
A Facebook (Meta) megalkotta a Segment Anything modellt, amely egy olyan nagyskálás szemantikai szegmentációs modell, amely megtanulta az objektumok általános fogalmát, és képes maszkokat generálni bármilyen objektumhoz bármilyen képen vagy videón. Ez még azokra az objektumokra és képtípusokra is vonatkozik, amelyekkel a tanítás során nem találkozott. A legfontosabb eredmény egy olyan modell, amely képes új tartományokban működni és gyorsan megtanulni azok szegmentálását, hasonlóan ahhoz, ahogy a modern nyelvi modellek a few-shot learning segítségével taníthatók új szövegek kezelésére.
- A modell a kétértelmű promptokat több ésszerű maszk kiadásával kezeli.
- A SAM 6,5-szer gyorsabb, mint a korábbi erőfeszítéseknél alkalmazott manuális, poligon-alapú maszk-annotáció.
- A Meta közzétette az SA-1B adatkészletet, amely 1 milliárd maszkot tartalmaz, ami 400-szor több, mint bármely létező adatkészlet.
- Az adatkészlet egy iteratív folyamat segítségével készült, amelyben a modell segítette az emberi annotátorok munkáját.
- A modell egy „promptolható szegmentációs feladatot” használ, hogy érvényes maszkokat jósoljon meg pontokhoz, keretekhez vagy szövegekhez.
- Emberi értékeléssel igazolták, hogy a maszkok minősége összemérhető a manuális annotációkkal.
Miért fontos?
Úgy gondolom, a legtöbb nagyskálás, előtanított modellnél a lényeges felismerés meglehetősen egyszerű – kényszerítsük ki a predikciót még akkor is, ha a dolgok kétértelműek. Azáltal, hogy a modelleket predikcióra kényszerítjük kétértelmű és gyengén címkézett adatok esetén, nagyon kifinomult, emergens megkülönböztető tulajdonságok épülnek be. Tágabb értelemben az olyan modellek, mint a Segment Anything, felerősítik a többi alapmodellt, megkönnyítve a csak szöveges rendszerek, például a nagy nyelvi modellek (LLM) számára, hogy vizuális világmodellel rendelkezzenek.