KÜLÖNLEGES KIADÁS: OPENAI TAVASZI FRISSÍTÉSEK
Az OpenAI leleplezte a GPT-4o multimodális modellt natív hang- és látásfeldolgozással
Az OpenAI bemutatta a GPT-4o-t, egy multimodális modellt, amely szöveget, képet és hangot is feldolgoz. Kétszer gyorsabb és 50%-kal olcsóbb, mint a GPT-4 Turbo, miközben a benchmarkokon is túlszárnyalja azt. A GPT-4o natívan képes több modalitásban válaszolni, és olyan fejlett funkciókkal rendelkezik, mint a valós idejű érzelemfelismerés és az adaptív beszédválasz, ihletet merítve a "Her" (A nő) című filmből.
- Kétszer gyorsabb és 50%-kal olcsóbb, mint a GPT-4 Turbo
- Natívan dolgoz fel és generál szöveget, képet és hangot
- Valós idejű érzelemfelismerő funkcióval rendelkezik
- Adaptív beszédválaszokat ad
- A korábbi modelleket felülmúlja a főbb benchmarkokon
Miért fontos?
Ez az új "omni" modell a kifinomultabb, eszközökön átívelő AI asszisztensek irányába mutat, jelezve az elmozdulást a kifejezőbb és sokoldalúbb interakciók felé a korábbi hangmódokhoz képest. ---