MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Meta speciális multimodális eszközöket indít OCR-hez és fordításhoz

A nyelvi modelleken túl a Meta AI egy sor olyan multimodális eszközt mutatott be, amelyeket komplex vizuális és hangalapú feladatok kezelésére terveztek. Ide tartozik a Nougat, egy vizuális transzformer optikai karakterfelismeréshez (OCR), és a SeamlessM4T, egy átfogó fordítómodell. Ezek az eszközök a tudományos ismeretek digitalizálását és a nyelvi korlátok lebontását célozzák a különböző médiatípusok között.

Miért fontos?

A tudományos PDF-ek gépileg olvasható markup formátumba alakítása régóta kihívást jelent az AI számára; a Nougat és a SeamlessM4T alapvető infrastruktúrát biztosít a globális tudományos ismeretek hozzáférhetőbbé tételéhez. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
A Meta bemutatja a SAM Audiót és az AI-alapú szerkesztést az Instagramon
2025. december 18.
Az áttörések a multimodális AI területén kifinomultabb, emberihez hasonló adatfeldolgozáshoz vezetnek
2023. december 28.
A Mondo Robotics bemutatta Benit, az autonóm kamerarobotot tartalomgyártók számára
3 órája