Az OpenAI leleplezte a GPT-4o multimodális modellt natív hang- és látásfeldolgozással

KÜLÖNLEGES KIADÁS: OPENAI TAVASZI FRISSÍTÉSEK

Az OpenAI leleplezte a GPT-4o multimodális modellt natív hang- és látásfeldolgozással

2024. május 16. · MI Történik? · 1 perc olvasás

Az OpenAI bemutatta a GPT-4o-t, egy multimodális modellt, amely szöveget, képet és hangot is feldolgoz. Kétszer gyorsabb és 50%-kal olcsóbb, mint a GPT-4 Turbo, miközben a benchmarkokon is túlszárnyalja azt. A GPT-4o natívan képes több modalitásban válaszolni, és olyan fejlett funkciókkal rendelkezik, mint a valós idejű érzelemfelismerés és az adaptív beszédválasz, ihletet merítve a "Her" (A nő) című filmből.

Kétszer gyorsabb és 50%-kal olcsóbb, mint a GPT-4 Turbo
Natívan dolgoz fel és generál szöveget, képet és hangot
Valós idejű érzelemfelismerő funkcióval rendelkezik
Adaptív beszédválaszokat ad
A korábbi modelleket felülmúlja a főbb benchmarkokon

Miért fontos?

Ez az új "omni" modell a kifinomultabb, eszközökön átívelő AI asszisztensek irányába mutat, jelezve az elmozdulást a kifejezőbb és sokoldalúbb interakciók felé a korábbi hangmódokhoz képest. ---

Eredeti forrás megtekintése (angol) →