MULTIMODÁLIS AI
A Meta speciális multimodális eszközöket indít OCR-hez és fordításhoz
A nyelvi modelleken túl a Meta AI egy sor olyan multimodális eszközt mutatott be, amelyeket komplex vizuális és hangalapú feladatok kezelésére terveztek. Ide tartozik a Nougat, egy vizuális transzformer optikai karakterfelismeréshez (OCR), és a SeamlessM4T, egy átfogó fordítómodell. Ezek az eszközök a tudományos ismeretek digitalizálását és a nyelvi korlátok lebontását célozzák a különböző médiatípusok között.
- A Nougat a tudományos PDF-eket és matematikai kifejezéseket közvetlenül markup nyelvvé alakítja
- A SeamlessM4T körülbelül 100 nyelven tud szöveget és 35 nyelven beszédet fordítani
- A kiadás tartalmaz egy új módszert, az Instruction Backtranslationt a tanítóadatok generálásának automatizálására
- Ezek a modellek folytatják a Meta stratégiáját a nagy hasznosságú, nyílt forráskódú kutatási eszközök közzétételére
Miért fontos?
A tudományos PDF-ek gépileg olvasható markup formátumba alakítása régóta kihívást jelent az AI számára; a Nougat és a SeamlessM4T alapvető infrastruktúrát biztosít a globális tudományos ismeretek hozzáférhetőbbé tételéhez. ---