Az OpenAI új Text-to-Speech API-t indított hat emberi minőségű hanggal

2023. november 7. · MI Történik? · 1 perc olvasás

A fejlesztők mostantól emberi minőségű beszédet generálhatnak szövegből egy új text-to-speech API-n keresztül. A jelenlegi TTS modell hat előre beállított hangot kínál, valamint két modellváltozatot: tts-1 és tts-1-hd. A tts-1-et valós idejű használatra optimalizálták, míg a tts-1-hd-t a minőségre, így emberibb beszédet biztosít nagyobb késleltetés mellett. Az OpenAI TTS támogatja a valós idejű audió streamelést is.

Hat előre beállított hangot kínál: Alloy, Echo, Fable, Onyx, Nova és Shimmer
Két modellváltozat: tts-1 (alacsony késleltetés) és tts-1-hd (magas minőség)
Támogatja a valós idejű audió streamelést
Az árazás 0,015 dollárnál kezdődik 1000 karakterenként

Miért fontos?

A hanggenerálás volt a hiányzó modalitás az OpenAI ökoszisztémájában. Egy OpenAI-szintű TTS motor, amely jelentősen olcsóbb (több mint tízszer olcsóbb egyes versenytársaknál), fokozza a versenyt és több hangalapú üzleti felhasználást tesz lehetővé. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az AI pályára lép a labdarúgás legnagyobb színpadán

most

Az XPeng vezérigazgatója irányítja a humanoid robotok sorozatgyártását

2 órája

A Mondo Robotics bemutatta Benit, az autonóm kamerarobotot tartalomgyártók számára

10 órája

Tudj meg többet

OpenAI Sora: AI videógenerálás – minden, amit tudni kell

OpenAI: A ChatGPT mögötti cég – történet, termékek, jövőkép