MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az ElevenLabs kiadta a Scribe-ot: A világ legpontosabb beszéd-szöveg (Speech-to-Text) AI modelljét

Az ElevenLabs, amely eddig elsősorban a kiváló minőségű mesterséges intelligencia alapú hangklónozásról és beszédszintézisről vált ismertté, most új területre lépett a Scribe modell bemutatásával. A vállalat ígérete szerint a Scribe a világ jelenleg legpontosabb beszéd-szöveg (speech-to-text) megoldása, amely képes maga mögé utasítani olyan iparági óriásokat is, mint az OpenAI Whisper v3 vagy a Google Gemini 2.0 Flash. Az új modell fejlesztése során kiemelt figyelmet fordítottak a pontosságra és a sokoldalúságra, így a Scribe összesen 99 nyelvet támogat, ráadásul több mint 25 nyelven – köztük angolul, spanyolul és olaszul – a 95 százalékot meghaladó találati arányt biztosít, ami jelentős előrelépést jelent a jelenlegi technológiai sztenderdekhez képest.

A modell egyik legfontosabb technikai vívmánya, hogy hatékonyan kezeli azokat a nyelveket is, amelyek eddig a technológiai fejlesztések perifériáján maradtak, mivel a legtöbb nagy AI modell csupán a világszerte leggyakrabban használt nyelvekre fókuszál. A Scribe ezzel szemben olyan, korábban elhanyagolt nyelvek esetében is magas színvonalú átírást kínál, mint a kantoni, a szerb vagy a malajálam, ezzel globálisan elérhetőbbé téve a technológiát. A beszédfelismerés pontosságát tovább növelik az olyan fejlett funkciók, mint a pontos szószintű időbélyegek, a több beszélőt megkülönböztető, úgynevezett multi-speaker labeling technológia, valamint a nem verbális elemek, például nevetés vagy háttérzene precíz érzékelése. Ez a komplexitás lehetővé teszi, hogy az átírt szövegek ne csupán nyers adatok legyenek, hanem hűen tükrözzék a hanganyag kontextusát és dinamikáját.

Az ElevenLabs árazási stratégiája is figyelemre méltó, hiszen az előre rögzített hanganyagok átírásáért óránként 0,40 dolláros díjat kérnek, ami versenyképes ajánlat a piacon. A fejlesztők ráadásul nem állnak meg itt: a tervek szerint hamarosan érkezik a modell alacsony késleltetésű, úgynevezett low-latency verziója is, amely a valós idejű alkalmazások, például élő közvetítések vagy azonnali szinkrontolmácsolási feladatok esetén jelenthet majd hatalmas áttörést. A Scribe megjelenése hosszú távon alapjaiban alakíthatja át a tartalomkészítők és vállalati felhasználók mindennapjait, hiszen a hibátlan feliratok generálása és a könnyen kereshető podcast-archívumok létrehozása immár minden korábbinál egyszerűbbé és elérhetőbbé válik, hozzájárulva ezzel a hangalapú információk hatékonyabb feldolgozásához és hasznosításához.

Miért fontos?

A Scribe pontosságának és a valós világbeli hangok kiszámíthatatlanságára való fókuszálásának köszönhetően a felhasználók hibátlan feliratokra, kereshető podcast-archívumokra és egyebekre számíthatnak. Emellett a magas szintű átírásokat globálisabb közönség számára is elérhetővé teszi – különösen a kevés erőforrással rendelkező (low-resource) nyelvek esetében, amelyeket korábban más modellek elhanyagoltak. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
Az ElevenLabs elindítja a 11ai hangasszisztenst Model Context Protocol integrációval
2025. június 24.
Az ElevenLabs elindította az „Iconic Voices” funkciót az AI Reader alkalmazáshoz
2024. július 3.
NYT-újságíró AI segítségével, ingatlanügynök nélkül adta el házát
most
Tudj meg többet
AI hanggenerálás és zeneszerzés: Útmutató a Suno, Udio és ElevenLabs használatához
AI és robotika: Hogyan alakítják át a világunkat 2026-ban