MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra
Új nyílt modellek jelentek meg: Gemma 4, Ideogram 4.0 és Miso One

Új nyílt modellek jelentek meg: Gemma 4, Ideogram 4.0 és Miso One

Az utóbbi napokban valóságos dömpinget tapasztalhattunk a mesterséges intelligencia piacán, hiszen több meghatározó, nyílt forráskódú modell is napvilágot látott. A technológiai közösség figyelme elsősorban a Google legújabb fejlesztésére, a Gemma 4-re, az Ideogram 4.0 képgenerálóra, valamint a rendkívül gyors Miso One beszédgeneráló modellre irányul. Ezek a megjelenések nem csupán technikai mérföldkövek, hanem komoly elmozdulást jelentenek a nyílt súlyozású modellek irányába, amelyek egyre inkább felveszik a versenyt a legnagyobb zárt rendszerekkel is. A fejlesztők számára ez új távlatokat nyit meg, hiszen hatékonyabb és testreszabhatóbb eszközöket kapnak a kezükbe anélkül, hogy kizárólag a nagyvállalati ökoszisztémákra és azok költséges felhőszolgáltatásaira kellene támaszkodniuk.

A Google bemutatta a Gemma 4 12B változatát, amely egy rendkívül ígéretes multimodális modell. Ez az architektúra képes arra, hogy egyszerre dolgozzon fel kép- és hangbemeneteket, ami jelentős előrelépést jelent a korábbi generációkhoz képest. A legmeghökkentőbb tulajdonsága mégis a hatékonysága: a viszonylag kompakt, 12 milliárd paraméteres mérete ellenére közel olyan teljesítményt nyújt, mint a korábbi, jóval nagyobb hardverigényű 26B-s változat. Ez azt jelenti, hogy a fejlesztők kisebb GPU kapacitással is hasonló eredményeket érhetnek el, mint korábban. Ezzel párhuzamosan a hangalapú interakciók terén is áttörés történt a Miso One megjelenésével. Ez a 8B paraméteres text-to-speech modell kifejezetten az expresszív, érzelemdús beszédre és a villámgyors válaszidőre fókuszál. A mindössze 110 ms-os késleltetés (latency) lehetővé teszi a valódi, valós idejű párbeszédek kialakítását, ami kulcsfontosságú lehet az új generációs AI asszisztensek és interaktív ügyfélszolgálati rendszerek fejlesztésekor.

A vizuális tartalomgyártás területén az Ideogram 4.0 hozott radikális újításokat. Ez a 9,3 milliárd paraméteres képgeneráló modell szakít a hagyományos, pusztán leíró jellegű promptolással, és bevezeti a JSON alapú utasításokat. Ez a módszer lehetővé teszi a felhasználók számára, hogy mérnöki precizitással szabályozzák a kép elrendezését, a színeket és különösen a képen belüli szövegek elhelyezkedését. A JSON promptok használatával megszűnik az a bizonytalanság, ami eddig sok képgeneráló eszközt jellemzett, így a professzionális grafikai munkák és marketinganyagok tervezése során is megbízhatóbbá válik az AI alkalmazása. Érdekességként megemlíthető a piacon a Reve 2.0 is, amely bár zárt forráskódú alternatívaként van jelen, hasonlóan nagy hangsúlyt fektet a képelrendezés és a kompozíció finomhangolására, jelezve, hogy az iparág egyre inkább a kontrollálható generatív művészet felé mozdul el.

A kiváló minőségű, nyílt súlyozású (open-weight) modellek folyamatos megjelenése alapjaiban demokratizálja az AI-fejlesztést. Korábban a legkifinomultabb multimodális képességek csak drága és gyakran korlátozó feltételeket támasztó, zárt forráskódú API-kon keresztül voltak elérhetőek, mint amilyeneket az OpenAI vagy az Anthropic kínál. Most viszont a Gemma 4 vagy az Ideogram 4.0 révén a startupok és független fejlesztők saját infrastruktúrán futtathatnak olyan rendszereket, amelyek képességei vetekszenek a technológiai óriások megoldásaival. Ez nemcsak a fejlesztési költségek drasztikus csökkenését jelenti, hanem nagyobb adatbiztonságot és technológiai függetlenséget is biztosít. Ahogy ezek a modellek egyre hatékonyabbá válnak, a mesterséges intelligencia alkalmazása már nem csupán a végtelen erőforrásokkal rendelkező cégek kiváltsága lesz, hanem a mindennapi szoftverfejlesztés szerves részévé válik világszerte.

Miért fontos?

A kiváló minőségű, nyílt súlyozású (open-weight) modellek folyamatos megjelenése lehetővé teszi a fejlesztők számára, hogy kifinomult multimodális alkalmazásokat építsenek anélkül, hogy drága, zárt forráskódú API-kra támaszkodnának. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
A Ramp Stack AI könyvelési asszisztense automatizálja a havi pénzügyi zárást
2026. június 4.
A finomhangolt Harvey jogi ágens alacsonyabb költség mellett körözi le az Opus 4.7-et
2026. június 4.
A Stacker AI Accelerator 500 000 dollár értékű inference kreditet kínál AI-fókuszú vállalkozásoknak
2026. június 2.
Tudj meg többet
Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?