A Meta és a Waymo kidolgozta a Transfusion multimodális tanítási stratégiát
A Meta és a Waymo kutatói bemutatták a Transfusion-t, egy multimodális tanítási stratégiát, amely a hagyományos módszereknél jobban skálázható. A nyelvmodellezést és a diffúziót ötvözve ez a megközelítés kiváló minőségű szöveget és képeket képes generálni egyetlen skálázott keretrendszeren belül. Ez elmozdulást jelent az egységesebb architektúrák felé, amelyek natívan képesek kezelni a különböző adattípusokat.
- Jobban skálázható, mint a hagyományos multimodális tanítási módszerek
- Egyesíti a nyelvmodellezést és a diffúziót egy egységes stratégiában
- Kiváló minőségű szöveget és képeket generál nagy léptékben
- A Meta és a Waymo kutatócsoportjai közösen fejlesztették ki
Miért fontos?
Ez a kutatás hatékonyabb és erősebb egységes modellekhez vezethet, amelyek nem igényelnek különálló architektúrákat vagy "összeeszkábált" komponenseket a különböző médiatípusokhoz, leegyszerűsítve a valóban multimodális AI fejlesztését. ---
Kapcsolódó hírek
A Rhymes AI kiadta az Aria-t, az első nyílt forráskódú multimodális Mixture-of-Experts modellt
2024. október 17.
A MiniCPM-V 2.6 valós idejű videóértelmezést tesz lehetővé mobileszközökön
2024. augusztus 8.