A Microsoft bemutatta a Phi-4-reasoning-vision-15B nyílt súlyozású multimodális modellt

ADATOK

A Microsoft bemutatta a Phi-4-reasoning-vision-15B nyílt súlyozású multimodális modellt

2026. március 9. · MI Történik? · 1 perc olvasás

A Microsoft kiadta a Phi-4-reasoning-vision-15B-t, egy 15 milliárd paraméteres, nyílt súlyozású multimodális modellt, amely a Microsoft Foundry, a HuggingFace és a GitHub felületein keresztül érhető el. A modell kezeli a vizuális-nyelvi feladatokat, beleértve a képaláírásokat, a dokumentumok olvasását és a képernyőelemek beazonosítását, különösen erős a matematika, a tudományos érvelés és a számítógépes interfészek megértése terén. A Microsoft 200 milliárd multimodális tokenen tanította be – ami nagyjából ötször kevesebb, mint a versenytárs modelleké, mint például a Qwen 2.5 VL és a Gemma 3 –, a Phi-4-Reasoning nyelvi modellre építve és a skálázás helyett a gondos adatkezelést (data curation) alkalmazva. Az architektúra közepes fúziót (mid-fusion) alkalmaz egy SigLIP-2 Naflex vizuális kódolóval, amely támogatja a dinamikus felbontást 3 600 tokenig. A Microsoft tanulmányai kimutatták, hogy a dinamikus felbontású kódolók lényegesen felülmúlják a fix felbontású megközelítéseket a nagy felbontású benchmarkokon.

15 milliárd paraméteres nyílt súlyozású modell
200 milliárd multimodális tokenen tanítva, gondos adatkezeléssel
SigLIP-2 Naflex vizuális kódolót használ dinamikus felbontással 3 600 tokenig
Erős teljesítmény a matematika, a tudományos érvelés és a számítógépes interfészek megértése terén
Elérhető a Microsoft Foundry, a HuggingFace és a GitHub felületein

Eredeti forrás megtekintése (angol) →