MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az áttörések a multimodális AI területén kifinomultabb, emberihez hasonló adatfeldolgozáshoz vezetnek

A multimodális AI olyan rendszereket jelent, amelyek képesek többféle adatbevitelt – például szöveget, képeket és hangot – egyszerre vagy integrált módon feldolgozni és értelmezni, az emberhez hasonlóan. Az egyetlen modalitásra (például csak képre vagy szövegre) specializálódott modellek korlátozott képességekkel bírnak, és sokkal több tanítóadatot igényelnek. Ez éles ellentétben áll az emberi tanulással, ahol a különböző típusú érzékszervi inputoknak köszönhetően sokkal hatékonyabban tanulunk. 2023 több áttörést hozó modellt és keretrendszert is hozott, amelyek közül a CogVLM lett a legjobb (SOTA) open-source modell.

Miért fontos?

Az ezen a területen elért fejlődés kulcsfontosságú, mivel kifinomultabb, hatékonyabb és pontosabb AI alkalmazásokat tesz lehetővé, valamint a viselhető eszközök és az autonóm robotika következő generációját hajtja. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
A Meta bemutatja a SAM Audiót és az AI-alapú szerkesztést az Instagramon
2025. december 18.
A Meta speciális multimodális eszközöket indít OCR-hez és fordításhoz
2023. szeptember 10.
A Mondo Robotics bemutatta Benit, az autonóm kamerarobotot tartalomgyártók számára
2 órája