A Meta bemutatta a ReVISE AI modellt a fejlett vizuális beszédértéshez

New Research

A Meta bemutatta a ReVISE AI modellt a fejlett vizuális beszédértéshez

2023. január 12. · MI Történik? · 1 perc olvasás

A Meta kiadott egy új, ReVISE nevű modellt, amelyet vizuális beszédértésre, közismertebb nevén szájról olvasásra terveztek. A modellt úgy fejlesztették ki, hogy rendkívül hatékony legyen a valós élethelyzetekben, ahol a hagyományos hangalapú beszédfelismerés gyakran kudarcot vall, például zsúfolt környezetben vagy rossz hangminőségű felvételek esetén.

A modell pontosan tud szájról olvasni még jelentős háttérzaj esetén is.
Hatékonyan működik a forrásanyag gyenge hangminősége ellenére is.
A ReVISE képes értelmezni a beszédet akkor is, ha többen beszélnek egyszerre egymásra.
A Meta közzétett egy projektoldalt audiovizuális mintákkal a modell működéséről.

Eredeti forrás megtekintése (angol) →