META
A Meta számítógépes látás alapú AI-modelljei 3D modellekké alakítják a fotókat
A Meta kiadta a SAM 3 és SAM 3D modelleket. Ez a két számítógépes látás modell képes azonosítani, szegmentálni és szöveges leírások alapján 3D modellekké alakítani a fotókon szereplő tárgyakat vagy embereket. Emellett elindult az új Segment Anything Playground is a rendszerek kipróbálására.
- A SAM 3 részletes szöveges leírások (például „sárga iskolabusz”) alapján szegmentálja az objektumokat, ami jelentős előrelépés a korábbi modellek rögzített címke-korlátaihoz képest.
- A SAM 3D Objects és 3D Body egyetlen fotóból rekonstruálja a jeleneteket és az emberi alakokat, az emberi preferencia-teszteken pedig 5:1 arányban győzedelmeskedett a riválisok felett.
- Mindkét modell elérhető az új Segment Anything Playground felületen ingyenes kísérletezésre, a SAM 3 súlyai és kódja pedig teljesen open-source módon is megjelentek.
- A Meta már integrálja a technológiát a Facebook Marketplace „View in Room” funkciójába, és hamarosan érkezik az Edits és Vibes tartalomkészítő alkalmazásokba is.
Miért fontos?
A számítógépes látás terén az elmúlt néhány évben elért fejlődés hatalmas, és a Meta új open-source modelljei még erősebb szegmentálási és 3D képességeket tesznek elérhetővé mindenki számára – legyen szó a Meta termékvonalairól vagy egyéni felhasználók kreatív, robotikai és egyéb munkafolyamatairól.