MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az áttörések a multimodális AI területén kifinomultabb, emberihez hasonló adatfeldolgozáshoz vezetnek

A multimodális AI olyan rendszereket jelent, amelyek képesek többféle adatbevitelt – például szöveget, képeket és hangot – egyszerre vagy integrált módon feldolgozni és értelmezni, az emberhez hasonlóan. Az egyetlen modalitásra (például csak képre vagy szövegre) specializálódott modellek korlátozott képességekkel bírnak, és sokkal több tanítóadatot igényelnek. Ez éles ellentétben áll az emberi tanulással, ahol a különböző típusú érzékszervi inputoknak köszönhetően sokkal hatékonyabban tanulunk. 2023 több áttörést hozó modellt és keretrendszert is hozott, amelyek közül a CogVLM lett a legjobb (SOTA) open-source modell.
Miért fontos?

Az ezen a területen elért fejlődés kulcsfontosságú, mivel kifinomultabb, hatékonyabb és pontosabb AI alkalmazásokat tesz lehetővé, valamint a viselhető eszközök és az autonóm robotika következő generációját hajtja. ---

Eredeti forrás megtekintése (angol) →