MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra
A Meta VideoJAM keretrendszere javítja a valósághű mozgást az AI videógenerálásban

A Meta VideoJAM keretrendszere javítja a valósághű mozgást az AI videógenerálásban

A Meta mérnökei bemutatták a VideoJAM keretrendszert, amely egy új megközelítéssel igyekszik kiküszöbölni a jelenlegi videógeneráló modellek egyik legnagyobb gyengeségét: az akciófelvételek során jelentkező irreális és gyakran zavaró mozgásokat. A technológia lényege, hogy egy olyan modellt építettek fel az alapoktól, amely kifejezetten a mozgásdinamikára fókuszál, és ezzel képes kijavítani azokat a vizuális anomáliákat, amelyek miatt a jelenlegi Vision Language Model rendszerek – röviden VLM-ek – sokszor szürreális, már-már horrorisztikus képsorokat állítanak elő. A Meta megoldása azért is különleges, mert nem igényel teljes modellcserét, mivel minimális módosításokkal bármelyik meglévő VLM-be integrálható, amivel azonnal csúcstechnológiás, azaz state-of-the-art minőség érhető el.

Az elmúlt időszakban az AI alapú videógenerálás óriási fejlődésen ment keresztül, azonban a mozgás konzisztenciája továbbra is komoly kihívást jelent a fejlesztők számára. Amikor egy AI-nak egy dinamikusabb jelenetet, például egy tornászgyakorlatot vagy egy tehetségkutató műsorban zajló komplex mozgássort kell megjelenítenie, a végeredmény gyakran torzult végtagokkal vagy logikátlan térbeli elmozdulásokkal jár. A VideoJAM ezt a problémát egy dedikált, mozgásközpontú architektúrával hidalja át, amely segít a modellnek jobban megérteni és lekövetni az objektumok és emberek élethű fizikai viselkedését. Ez a fejlesztés kulcsfontosságú lépés afelé, hogy az AI által generált tartalmak a szórakoztatóiparban vagy a profi videókészítésben is megbízhatóan alkalmazhatóak legyenek.

A technológia jelentősége abban rejlik, hogy a hatékonyságot helyezi előtérbe. Ahelyett, hogy a kutatók hatalmas, erőforrásigényes alapmodelleket próbálnának betanítani minden egyes újabb funkcióra, a VideoJAM egy plug-and-play jellegű kiegészítést kínál. Mivel minimális módosításokkal szinte bármely VLM-re ráilleszthető, a fejlesztők gyorsan javíthatják meglévő rendszereik teljesítményét anélkül, hogy az alapoktól kellene újraépíteniük a teljes neurális hálót. Ez nemcsak a fejlesztési időt csökkenti drasztikusan, de demokratizálhatja a csúcsminőségű videógenerálást is, lehetővé téve a kisebb csapatok számára is, hogy versenyképes, látványos és valósághű tartalmakat hozzanak létre.

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
OpenAI elhalasztja a GPT-5-öt, de megerősíti az o3 és az o4-mini érkezését
6 napja
Az OpenAI a profitorientált közhasznú társasági struktúra felé mozdul el
6 napja
Az AI pontosabban ismeri fel a petefészekrákot, mint az orvosszakértők
6 napja