New Research
A Meta bemutatta a ReVISE AI modellt a fejlett vizuális beszédértéshez
A Meta kiadott egy új, ReVISE nevű modellt, amelyet vizuális beszédértésre, közismertebb nevén szájról olvasásra terveztek. A modellt úgy fejlesztették ki, hogy rendkívül hatékony legyen a valós élethelyzetekben, ahol a hagyományos hangalapú beszédfelismerés gyakran kudarcot vall, például zsúfolt környezetben vagy rossz hangminőségű felvételek esetén.
- A modell pontosan tud szájról olvasni még jelentős háttérzaj esetén is.
- Hatékonyan működik a forrásanyag gyenge hangminősége ellenére is.
- A ReVISE képes értelmezni a beszédet akkor is, ha többen beszélnek egyszerre egymásra.
- A Meta közzétett egy projektoldalt audiovizuális mintákkal a modell működéséről.