Az OpenAI bemutatta a GPT-4o multimodális modellt valós idejű interaktivitással

2024. június 2. · MI Történik? · 1 perc olvasás

Az OpenAI bemutatta a GPT-4o-t, egy élvonalbeli multimodális modellt, amely szöveget, látványt és hangot is feldolgoz, a GPT-4 Turbo-hoz képest kiváló sebességet és költséghatékonyságot kínálva. Az új hangasszisztens valós idejű fordítást, arckifejezés-olvasást és dinamikus hangadaptációt kínál, jelentősen javítva az interaktivitást. Az OpenAI bővítette az ingyenes csomagot, elérhetővé téve a korábban csak ChatGPT Plus felhasználók számára fenntartott funkciókat és a korlátozott hozzáférést a GPT-4o-hoz. Emellett bejelentettek egy új asztali alkalmazást Mac-re, amelynek Windows-os verziója hamarosan érkezik, és az Apple eszközeivel való integráció is a láthatáron van.

Valós idejű érzelemfelismerés és alkalmazkodó beszédválaszok
Valós idejű fordítás és arckifejezés-olvasás
Bővített ingyenes hozzáférés a Plus funkciókhoz
Új asztali alkalmazás indítása Mac-re

Miért fontos?

A modell képessége, hogy a hangot, látványt és szöveget egyetlen neurális hálózatban kezelje, csökkenti a késleltetést és emberibb, érzelmesebb interakciót tesz lehetővé, ami hatalmas ugrást jelent a konverzációs AI területén. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

GPT-2 visszatekintés: Az AI skálázási és biztonsági előrejelzéseinek öt éve

2024. június 3.

A Google bejelentette a Gemini 1.5 Pro-t 2 millió tokenes kontextusablakkal

2024. június 2.

A Mondo Robotics bemutatta Benit, az autonóm kamerarobotot tartalomgyártók számára

7 órája

Tudj meg többet

OpenAI Sora: AI videógenerálás – minden, amit tudni kell

OpenAI: A ChatGPT mögötti cég – történet, termékek, jövőkép