Openai

Az OpenAI igyekszik megelőzni a Google multimodális Gemini-startját

2026. május 22. · MI Történik? · 2 perc olvasás

A mesterséges intelligencia piacának két legnagyobb óriása, az OpenAI és a Google között feszült versenyfutás alakult ki a következő generációs AI modellek piacra dobásáért. A legfrissebb iparági értesülések szerint a Google már nagyon közel jár a rendkívül ígéretes, multimodális Gemini modelljének bevezetéséhez. Ez a lépés komoly lépéskényszerbe hozta a ChatGPT fejlesztőit, így az OpenAI most mindent megtesz annak érdekében, hogy megelőzze riválisát. A vállalat gőzerővel siet, hogy a szövegek mellett más médiatípusokat is értelmezni képes multimodális funkciókat még a Google előtt nyilvánosan is elérhetővé tegye, és integrálja azokat a már meglévő GPT-4 modelljébe.

A technológiai verseny középpontjában jelenleg a multimodalitás áll, ami az AI fejlesztések következő logikus evolúciós lépcsőfoka. Ezek a fejlett rendszerek már nemcsak a strukturált szöveges adatokat képesek feldolgozni, hanem ezzel egy időben a vizuális információkat, vagyis a képeket is képesek értelmezni és kontextusba helyezni. Az OpenAI a hírek szerint két különböző stratégia mentén is támadást indít. Egyrészt a GPT-4 már létező, de eddig széles körben nem publikált képfelismerő képességeit tervezik hamarosan közzétenni, méghozzá GPT-Vision néven. Ez a közvetlen válaszlépés hivatott ellensúlyozni a Gemini piaci megjelenését.

A háttérben azonban egy még ambiciózusabb projekt is körvonalazódik a startup műhelyében. Az OpenAI mérnökei egy teljesen új, alapjaiból multimodálisnak tervezett modellen is dolgoznak, amely a Gobi kódnevet viseli. Ez a megoldás nem egy meglévő rendszer kiegészítése, hanem a nulláról úgy lett felépítve, hogy natívan kezelje a különböző adatbeviteli formákat. Szakértők szerint ez a technológia képezheti majd a későbbi GPT-5 alapjait. A fokozott tempó és a sietség egyáltalán nem véletlen, hiszen a jelentések egybeesnek az OpenAI novemberben esedékes, nagyszabású fejlesztői konferenciájával, ahol a cég korábban már nagyszerű új eszközök bemutatását és debütálását ígérte a nagyközönségnek.

Ez a feszült küzdelem egyértelműen jelzi, hogy az OpenAI vezetése rendkívül komoly fenyegetésnek tekinti a Google Gemini projektjét, és nem engedheti meg magának, hogy elveszítse az elsőbbséget a piacon. A tét hatalmas, hiszen aki előbb képes stabil, megbízható és sokoldalú multimodális asszisztenst adni a felhasználók és a fejlesztők kezébe, az lépéselőnybe kerül az egész tech szektor jövőjének alakításában. A felhasználók számára mindenesetre rendkívül izgalmas időszak következik, hiszen a dolgok kezdenek komolyan felforrósodni a két tech óriás között.

A Google és az OpenAI a következő generációs AI elindítását célozza meg – olyan multimodális modelleket, amelyek egyszerre értik a szöveget és a képeket.
Az OpenAI a GPT-4 meglévő képfelismerő funkcióit "GPT-Vision" néven teheti közzé, hogy felvegye a versenyt a Geminivel.
A vállalat fontolgatja a "Gobi"-t is, egy új modellt, amelyet a nulláról fejlesztettek multimodálisra – és amely végül a GPT-5-té válhat.
A jelentés egybeesik az OpenAI közelgő novemberi fejlesztői konferenciájával, ahol "nagyszerű új eszközöket" ígérnek.

Miért fontos?

A két nagyágyú feszült küzdelmet folytat az AI-versenyben – de az, hogy az OpenAI siet a multimodális opció bevezetésével, azt jelezheti, komoly fenyegetésnek tekinti a Google Gemini-jét. Készítsék a pattogatott kukoricát – úgy tűnik, a dolgok kezdenek komolyan felforrósodni. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az OpenAI kiadta a Codex Micro-t, egy 230 dolláros hardvert az AI-ágensek vezérléséhez

14 órája

Jelentés: Az OpenAI első hardvereszköze egy képernyő nélküli MI-hangszóró

tegnap

Az OpenAI nyilvánossá teszi a GPT-5.6-ot, hozzáadja a ChatGPT Work-öt

5 napja

Tudj meg többet

OpenAI Sora: AI videógenerálás – minden, amit tudni kell

OpenAI: A ChatGPT mögötti cég – történet, termékek, jövőkép