Az AI képessé tétele hosszú videók megértésére

AI KUTATÁS

Az AI képessé tétele hosszú videók megértésére

2024. február 12. · MI Történik? · 1 perc olvasás

A Google DeepMind és a Cornell Egyetem kutatói most fejlesztettek ki egy módszert, amellyel az AI rendszerek jobban képesek megérteni az eseményeket hosszabb videókban.

Jelenleg a legtöbb videó AI modell a komplexitás és a szükséges számítási teljesítmény miatt rövid klipek hosszára korlátozódik.
Az új módszer, az MC-ViT néven ismert, a korábbi videó szegmensek tömörített „memóriáját” tárolja, lehetővé téve a modell számára, hogy hatékonyan hivatkozzon korábbi eseményekre.
A módszertan az emberi memóriarögzítés pszichológiai és neurotudományi elméleteiből merít ihletet.
A rendszer a legkorszerűbb pontosságot éri el az olyan feladatokban, mint a cselekvések felismerése és a kérdések megválaszolása, annak ellenére, hogy sokkal kevesebb erőforrást használ, mint az összehasonlítható és sokkal nagyobb modellek.

Miért fontos?

Az AI hosszú videók megértésére való képessé tétele szükséges előrelépés a gondolkodási és valós alkalmazási felhasználási esetek bővítéséhez. Még lenyűgözőbb, hogy ezt alacsonyabb számítási teljesítménnyel és kereskedelmi forgalomban kapható transzformátorokkal érik el – tovább feszegetve az AI határait kevesebb erőforrással. ---

Eredeti forrás megtekintése (angol) →