MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Meta speciális multimodális eszközöket indít OCR-hez és fordításhoz

A nyelvi modelleken túl a Meta AI egy sor olyan multimodális eszközt mutatott be, amelyeket komplex vizuális és hangalapú feladatok kezelésére terveztek. Ide tartozik a Nougat, egy vizuális transzformer optikai karakterfelismeréshez (OCR), és a SeamlessM4T, egy átfogó fordítómodell. Ezek az eszközök a tudományos ismeretek digitalizálását és a nyelvi korlátok lebontását célozzák a különböző médiatípusok között.
Miért fontos?

A tudományos PDF-ek gépileg olvasható markup formátumba alakítása régóta kihívást jelent az AI számára; a Nougat és a SeamlessM4T alapvető infrastruktúrát biztosít a globális tudományos ismeretek hozzáférhetőbbé tételéhez. ---

Eredeti forrás megtekintése (angol) →