MULTIMODÁLIS AI
Az áttörések a multimodális AI területén kifinomultabb, emberihez hasonló adatfeldolgozáshoz vezetnek
A multimodális AI olyan rendszereket jelent, amelyek képesek többféle adatbevitelt – például szöveget, képeket és hangot – egyszerre vagy integrált módon feldolgozni és értelmezni, az emberhez hasonlóan. Az egyetlen modalitásra (például csak képre vagy szövegre) specializálódott modellek korlátozott képességekkel bírnak, és sokkal több tanítóadatot igényelnek. Ez éles ellentétben áll az emberi tanulással, ahol a különböző típusú érzékszervi inputoknak köszönhetően sokkal hatékonyabban tanulunk. 2023 több áttörést hozó modellt és keretrendszert is hozott, amelyek közül a CogVLM lett a legjobb (SOTA) open-source modell.
- A CogVLM túlszárnyalta a korábbi modelleket (például a LLaVA 1.5-öt) a grafikonok, dokumentumok és felületek megértésében
- Az Adept Fuyu és a Meta ImageBind/AnyMAL modelljei jelentősen hozzájárultak a többérzékszervi összekapcsoláshoz (multi-sensory binding)
- A GPT-4V(ision) marad a jelenlegi piacvezető zárt forráskódú modell a vizuális feladatok terén
- A Gemini Ultra szorosan követi, bár a fejlesztői hozzáférés még korlátozott
Miért fontos?
Az ezen a területen elért fejlődés kulcsfontosságú, mivel kifinomultabb, hatékonyabb és pontosabb AI alkalmazásokat tesz lehetővé, valamint a viselhető eszközök és az autonóm robotika következő generációját hajtja. ---