OPENAI
Az OpenAI hang AI-ja személyiségfokozással
Az OpenAI elindította következő generációs API-alapú audiomodelljeit a szövegfelolvasáshoz és a beszédfelismeréshez, lehetőséget adva a fejlesztőknek az AI beszédstílusainak testreszabására szövegen keresztül, és javított beszédfelismerést biztosítva több nyelven.
- Az új gpt-4o-mini-tts modell egyszerű szöveges parancsok alapján adaptálja beszédstílusát – például "beszélj, mint egy kalóz" vagy "használj esti mese hangot".
- A GPT-4o-transcribe beszédfelismerő modellek SOTA teljesítményt érnek el a pontossági és megbízhatósági teszteken, felülmúlva a meglévő Whisper modelleket.
- Az OpenAI kiadta az openai.fm-et is, egy nyilvános demó platformot, amely lehetővé teszi a felhasználók számára, hogy különböző hangstílusokat teszteljenek és első kézből tapasztalják meg az új modelleket.
- A modellek az OpenAI API-ján keresztül érhetők el, az Agents SDK-n keresztül pedig integrációs támogatást nyújtanak a hangvezérelt AI asszisztenseket fejlesztő fejlesztők számára.
Miért fontos?
Az AI hangügynököket hamarosan mindenféle alkalmazásba és platformba integrálják – és az, hogy szöveges parancsokkal testreszabhatók a kimenetek, óriási lehetőséget nyit a változatosabb, természetesebb AI interakciók előtt. Ezek az OpenAI demók azonban legalábbis egyelőre nem tűnnek olyan emberinek, mint az olyan hangalapú riválisok, mint a Sesame és az ElevenLabs.