Az OpenAI új Text-to-Speech API-t indított hat emberi minőségű hanggal
A fejlesztők mostantól emberi minőségű beszédet generálhatnak szövegből egy új text-to-speech API-n keresztül. A jelenlegi TTS modell hat előre beállított hangot kínál, valamint két modellváltozatot: tts-1 és tts-1-hd. A tts-1-et valós idejű használatra optimalizálták, míg a tts-1-hd-t a minőségre, így emberibb beszédet biztosít nagyobb késleltetés mellett. Az OpenAI TTS támogatja a valós idejű audió streamelést is.
- Hat előre beállított hangot kínál: Alloy, Echo, Fable, Onyx, Nova és Shimmer
- Két modellváltozat: tts-1 (alacsony késleltetés) és tts-1-hd (magas minőség)
- Támogatja a valós idejű audió streamelést
- Az árazás 0,015 dollárnál kezdődik 1000 karakterenként
Miért fontos?
A hanggenerálás volt a hiányzó modalitás az OpenAI ökoszisztémájában. Egy OpenAI-szintű TTS motor, amely jelentősen olcsóbb (több mint tízszer olcsóbb egyes versenytársaknál), fokozza a versenyt és több hangalapú üzleti felhasználást tesz lehetővé. ---