MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az OpenAI leleplezte a GPT-4o multimodális modellt natív hang- és látásfeldolgozással

Az OpenAI bemutatta a GPT-4o-t, egy multimodális modellt, amely szöveget, képet és hangot is feldolgoz. Kétszer gyorsabb és 50%-kal olcsóbb, mint a GPT-4 Turbo, miközben a benchmarkokon is túlszárnyalja azt. A GPT-4o natívan képes több modalitásban válaszolni, és olyan fejlett funkciókkal rendelkezik, mint a valós idejű érzelemfelismerés és az adaptív beszédválasz, ihletet merítve a "Her" (A nő) című filmből.
Miért fontos?

Ez az új "omni" modell a kifinomultabb, eszközökön átívelő AI asszisztensek irányába mutat, jelezve az elmozdulást a kifejezőbb és sokoldalúbb interakciók felé a korábbi hangmódokhoz képest. ---

Eredeti forrás megtekintése (angol) →