AI KUTATÁS
Az AI képessé tétele hosszú videók megértésére
A Google DeepMind és a Cornell Egyetem kutatói most fejlesztettek ki egy módszert, amellyel az AI rendszerek jobban képesek megérteni az eseményeket hosszabb videókban.
- Jelenleg a legtöbb videó AI modell a komplexitás és a szükséges számítási teljesítmény miatt rövid klipek hosszára korlátozódik.
- Az új módszer, az MC-ViT néven ismert, a korábbi videó szegmensek tömörített „memóriáját” tárolja, lehetővé téve a modell számára, hogy hatékonyan hivatkozzon korábbi eseményekre.
- A módszertan az emberi memóriarögzítés pszichológiai és neurotudományi elméleteiből merít ihletet.
- A rendszer a legkorszerűbb pontosságot éri el az olyan feladatokban, mint a cselekvések felismerése és a kérdések megválaszolása, annak ellenére, hogy sokkal kevesebb erőforrást használ, mint az összehasonlítható és sokkal nagyobb modellek.
Miért fontos?
Az AI hosszú videók megértésére való képessé tétele szükséges előrelépés a gondolkodási és valós alkalmazási felhasználási esetek bővítéséhez. Még lenyűgözőbb, hogy ezt alacsonyabb számítási teljesítménnyel és kereskedelmi forgalomban kapható transzformátorokkal érik el – tovább feszegetve az AI határait kevesebb erőforrással. ---