Az ElevenLabs kiadta a Scribe-ot: A világ legpontosabb beszéd-szöveg (Speech-to-Text) AI modelljét
Az ElevenLabs, amely eddig elsősorban a kiváló minőségű mesterséges intelligencia alapú hangklónozásról és beszédszintézisről vált ismertté, most új területre lépett a Scribe modell bemutatásával. A vállalat ígérete szerint a Scribe a világ jelenleg legpontosabb beszéd-szöveg (speech-to-text) megoldása, amely képes maga mögé utasítani olyan iparági óriásokat is, mint az OpenAI Whisper v3 vagy a Google Gemini 2.0 Flash. Az új modell fejlesztése során kiemelt figyelmet fordítottak a pontosságra és a sokoldalúságra, így a Scribe összesen 99 nyelvet támogat, ráadásul több mint 25 nyelven – köztük angolul, spanyolul és olaszul – a 95 százalékot meghaladó találati arányt biztosít, ami jelentős előrelépést jelent a jelenlegi technológiai sztenderdekhez képest.
A modell egyik legfontosabb technikai vívmánya, hogy hatékonyan kezeli azokat a nyelveket is, amelyek eddig a technológiai fejlesztések perifériáján maradtak, mivel a legtöbb nagy AI modell csupán a világszerte leggyakrabban használt nyelvekre fókuszál. A Scribe ezzel szemben olyan, korábban elhanyagolt nyelvek esetében is magas színvonalú átírást kínál, mint a kantoni, a szerb vagy a malajálam, ezzel globálisan elérhetőbbé téve a technológiát. A beszédfelismerés pontosságát tovább növelik az olyan fejlett funkciók, mint a pontos szószintű időbélyegek, a több beszélőt megkülönböztető, úgynevezett multi-speaker labeling technológia, valamint a nem verbális elemek, például nevetés vagy háttérzene precíz érzékelése. Ez a komplexitás lehetővé teszi, hogy az átírt szövegek ne csupán nyers adatok legyenek, hanem hűen tükrözzék a hanganyag kontextusát és dinamikáját.
Az ElevenLabs árazási stratégiája is figyelemre méltó, hiszen az előre rögzített hanganyagok átírásáért óránként 0,40 dolláros díjat kérnek, ami versenyképes ajánlat a piacon. A fejlesztők ráadásul nem állnak meg itt: a tervek szerint hamarosan érkezik a modell alacsony késleltetésű, úgynevezett low-latency verziója is, amely a valós idejű alkalmazások, például élő közvetítések vagy azonnali szinkrontolmácsolási feladatok esetén jelenthet majd hatalmas áttörést. A Scribe megjelenése hosszú távon alapjaiban alakíthatja át a tartalomkészítők és vállalati felhasználók mindennapjait, hiszen a hibátlan feliratok generálása és a könnyen kereshető podcast-archívumok létrehozása immár minden korábbinál egyszerűbbé és elérhetőbbé válik, hozzájárulva ezzel a hangalapú információk hatékonyabb feldolgozásához és hasznosításához.
- A Scribe 99 nyelvet támogat, és az állítások szerint a pontossága meghaladja a 95%-ot több mint 25 nyelven, köztük angolul, olaszul és spanyolul.
- A modell magasabbra teszi a lécet számos olyan nyelv esetében, amelyek hagyományosan nélkülözik a beszédfelismerési és átírási opciókat, mint például a szerb, a kantoni és a malajálam.
- További funkciói közé tartozik a több beszélő megjelölése (multi-speaker labeling), a szószintű időbélyegek, valamint a nem verbális audiojelek, például a nevetés vagy a zene észlelése.
- A Scribe ára 0,40 dollár az előre rögzített hanganyagok átírt óránként, és hamarosan érkezik egy alacsony késleltetésű (low-latency) verzió is a valós idejű alkalmazásokhoz.
A Scribe pontosságának és a valós világbeli hangok kiszámíthatatlanságára való fókuszálásának köszönhetően a felhasználók hibátlan feliratokra, kereshető podcast-archívumokra és egyebekre számíthatnak. Emellett a magas szintű átírásokat globálisabb közönség számára is elérhetővé teszi – különösen a kevés erőforrással rendelkező (low-resource) nyelvek esetében, amelyeket korábban más modellek elhanyagoltak. ---