ADATOK
A Microsoft bemutatta a Phi-4-reasoning-vision-15B nyílt súlyozású multimodális modellt
A Microsoft kiadta a Phi-4-reasoning-vision-15B-t, egy 15 milliárd paraméteres, nyílt súlyozású multimodális modellt, amely a Microsoft Foundry, a HuggingFace és a GitHub felületein keresztül érhető el. A modell kezeli a vizuális-nyelvi feladatokat, beleértve a képaláírásokat, a dokumentumok olvasását és a képernyőelemek beazonosítását, különösen erős a matematika, a tudományos érvelés és a számítógépes interfészek megértése terén. A Microsoft 200 milliárd multimodális tokenen tanította be – ami nagyjából ötször kevesebb, mint a versenytárs modelleké, mint például a Qwen 2.5 VL és a Gemma 3 –, a Phi-4-Reasoning nyelvi modellre építve és a skálázás helyett a gondos adatkezelést (data curation) alkalmazva. Az architektúra közepes fúziót (mid-fusion) alkalmaz egy SigLIP-2 Naflex vizuális kódolóval, amely támogatja a dinamikus felbontást 3 600 tokenig. A Microsoft tanulmányai kimutatták, hogy a dinamikus felbontású kódolók lényegesen felülmúlják a fix felbontású megközelítéseket a nagy felbontású benchmarkokon.
- 15 milliárd paraméteres nyílt súlyozású modell
- 200 milliárd multimodális tokenen tanítva, gondos adatkezeléssel
- SigLIP-2 Naflex vizuális kódolót használ dinamikus felbontással 3 600 tokenig
- Erős teljesítmény a matematika, a tudományos érvelés és a számítógépes interfészek megértése terén
- Elérhető a Microsoft Foundry, a HuggingFace és a GitHub felületein