MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az OpenAI leleplezte a GPT-4o multimodális modellt natív hang- és látásfeldolgozással

Az OpenAI bemutatta a GPT-4o-t, egy multimodális modellt, amely szöveget, képet és hangot is feldolgoz. Kétszer gyorsabb és 50%-kal olcsóbb, mint a GPT-4 Turbo, miközben a benchmarkokon is túlszárnyalja azt. A GPT-4o natívan képes több modalitásban válaszolni, és olyan fejlett funkciókkal rendelkezik, mint a valós idejű érzelemfelismerés és az adaptív beszédválasz, ihletet merítve a "Her" (A nő) című filmből.

Miért fontos?

Ez az új "omni" modell a kifinomultabb, eszközökön átívelő AI asszisztensek irányába mutat, jelezve az elmozdulást a kifejezőbb és sokoldalúbb interakciók felé a korábbi hangmódokhoz képest. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
Az OpenAI fejleszti a hangasszisztenst és bővíti az ingyenes hozzáférést
2024. május 16.
Az Anthropic kutatója négy kulcsfontosságú promptstratégiát vázolt fel a Claude Fable 5-höz
4 órája
Az Apple bemutatta a Siri AI funkcióit és az iOS 27-et a WWDC nyitóelőadásán
6 órája
Tudj meg többet
OpenAI Sora: AI videógenerálás – minden, amit tudni kell
OpenAI: A ChatGPT mögötti cég – történet, termékek, jövőkép