META
A Meta FAIR öt új nyílt forráskódú AI észlelési kutatási projektet tett közzé
A Meta FAIR kutatócsoportja öt új, nyílt forráskódú AI kutatási projektet publikált az észlelés és a következtetés területén, bemutatva a számítógépes látás, a 3D értelmezés és az együttműködő AI képességek fejlődését.
- A Perception Encoder SOTA teljesítményt nyújt a vizuális megértésben, kiválóan teljesítve olyan feladatokban, mint az álcázott állatok azonosítása vagy a mozgáskövetés.
- A Meta bemutatta a nyílt forráskódú Meta Perception Language Model (PLM) modellt és a PLM-VideoBench benchmarkot, a videómegértésre fókuszálva.
- A Locate 3D precíz objektumértelmezést tesz lehetővé az AI számára; a Meta 130 000 térbeli nyelvi annotációt tartalmazó adatkészletet tett közzé a tanításhoz.
- Végül egy új Collaborative Reasoner keretrendszer teszteli, mennyire jól működnek együtt az AI rendszerek, ami közel 30%-kal jobb teljesítményt mutat az egyedüli munkához képest.
Miért fontos?
Ez a kutatási csomag az AI olyan építőköveire összpontosít, mint az észlelés, a 3D értelmezés és a logikai következtetés — ezek kulcsfontosságú lépések a képzettebb, fizikai testtel rendelkező ágensek (embodied agents) és a gépi intelligencia felé. Hivatalosan is új területre lépünk olyan rendszerekkel, amelyek képesek haladó módon megérteni a fizikai világot és interakcióba lépni vele. ---