Openai

Az OpenAI hang AI-ja személyiségfokozással

2025. március 21. · MI Történik? · 1 perc olvasás

Az OpenAI elindította következő generációs API-alapú audiomodelljeit a szövegfelolvasáshoz és a beszédfelismeréshez, lehetőséget adva a fejlesztőknek az AI beszédstílusainak testreszabására szövegen keresztül, és javított beszédfelismerést biztosítva több nyelven.

Az új gpt-4o-mini-tts modell egyszerű szöveges parancsok alapján adaptálja beszédstílusát – például "beszélj, mint egy kalóz" vagy "használj esti mese hangot".
A GPT-4o-transcribe beszédfelismerő modellek SOTA teljesítményt érnek el a pontossági és megbízhatósági teszteken, felülmúlva a meglévő Whisper modelleket.
Az OpenAI kiadta az openai.fm-et is, egy nyilvános demó platformot, amely lehetővé teszi a felhasználók számára, hogy különböző hangstílusokat teszteljenek és első kézből tapasztalják meg az új modelleket.
A modellek az OpenAI API-ján keresztül érhetők el, az Agents SDK-n keresztül pedig integrációs támogatást nyújtanak a hangvezérelt AI asszisztenseket fejlesztő fejlesztők számára.

Miért fontos?

Az AI hangügynököket hamarosan mindenféle alkalmazásba és platformba integrálják – és az, hogy szöveges parancsokkal testreszabhatók a kimenetek, óriási lehetőséget nyit a változatosabb, természetesebb AI interakciók előtt. Ezek az OpenAI demók azonban legalábbis egyelőre nem tűnnek olyan emberinek, mint az olyan hangalapú riválisok, mint a Sesame és az ElevenLabs.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az OpenAI kiadta a Codex Micro-t, egy 230 dolláros hardvert az AI-ágensek vezérléséhez

14 órája

Jelentés: Az OpenAI első hardvereszköze egy képernyő nélküli MI-hangszóró

tegnap

Az OpenAI nyilvánossá teszi a GPT-5.6-ot, hozzáadja a ChatGPT Work-öt

5 napja

Tudj meg többet

OpenAI Sora: AI videógenerálás – minden, amit tudni kell

OpenAI: A ChatGPT mögötti cég – történet, termékek, jövőkép