NVIDIA
Az Nvidia nyílt forráskódúvá tette a nagy pontosságú Parakeet V2 beszédfelismerő modellt
Az Nvidia éppen most tette közzé a Parakeet V2-t, egy új, nagy teljesítményű, open-source automatikus beszédfelismerő (ASR) modellt, amely képes egy órányi hanganyagot egyetlen másodperc alatt átírni, miközben kereskedelmi szintű pontosságot ér el.
- A Parakeet az első helyet szerezte meg az Open ASR ranglistáján 6,05%-os szóhiba-aránnyal (Word Error Rate), megelőzve olyan csúcsmodelleket, mint az ElevenLabs Scribe és az OpenAI Whisper.
- A kereskedelmileg engedékeny CC-BY-4.0 licenc alatt kiadott, 600 millió paraméteres modell teljes mértékben open-source a fejlesztők és kutatók számára.
- A modell olyan fejlett funkciókat is tartalmaz, mint a pontos időbélyegzés, a nagybetűk használata, az írásjelek kezelése, valamint a dalok dalszöveggé történő átírása.
Miért fontos?
Az Nvidia továbbra is nemcsak a chipek piacát uralja, hanem nagy teljesítményű és nagyrészt open-source modelleket is kiad. A fárasztó gépelések ideje lejárt, és ez a nyílt, mégis élvonalbeli ASR modell jelentősen lecsökkenti a belépési küszöböt a fejlett beszédalkalmazások fejlesztése előtt. ---