MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Microsoft bemutatta a Phi-4-reasoning-vision-15B nyílt súlyozású multimodális modellt

A Microsoft kiadta a Phi-4-reasoning-vision-15B-t, egy 15 milliárd paraméteres, nyílt súlyozású multimodális modellt, amely a Microsoft Foundry, a HuggingFace és a GitHub felületein keresztül érhető el. A modell kezeli a vizuális-nyelvi feladatokat, beleértve a képaláírásokat, a dokumentumok olvasását és a képernyőelemek beazonosítását, különösen erős a matematika, a tudományos érvelés és a számítógépes interfészek megértése terén. A Microsoft 200 milliárd multimodális tokenen tanította be – ami nagyjából ötször kevesebb, mint a versenytárs modelleké, mint például a Qwen 2.5 VL és a Gemma 3 –, a Phi-4-Reasoning nyelvi modellre építve és a skálázás helyett a gondos adatkezelést (data curation) alkalmazva. Az architektúra közepes fúziót (mid-fusion) alkalmaz egy SigLIP-2 Naflex vizuális kódolóval, amely támogatja a dinamikus felbontást 3 600 tokenig. A Microsoft tanulmányai kimutatták, hogy a dinamikus felbontású kódolók lényegesen felülmúlják a fix felbontású megközelítéseket a nagy felbontású benchmarkokon.
Eredeti forrás megtekintése (angol) →