Nvidia

Az Nvidia nyílt forráskódúvá tette a nagy pontosságú Parakeet V2 beszédfelismerő modellt

2025. május 6. · MI Történik? · 1 perc olvasás

Az Nvidia éppen most tette közzé a Parakeet V2-t, egy új, nagy teljesítményű, open-source automatikus beszédfelismerő (ASR) modellt, amely képes egy órányi hanganyagot egyetlen másodperc alatt átírni, miközben kereskedelmi szintű pontosságot ér el.

A Parakeet az első helyet szerezte meg az Open ASR ranglistáján 6,05%-os szóhiba-aránnyal (Word Error Rate), megelőzve olyan csúcsmodelleket, mint az ElevenLabs Scribe és az OpenAI Whisper.
A kereskedelmileg engedékeny CC-BY-4.0 licenc alatt kiadott, 600 millió paraméteres modell teljes mértékben open-source a fejlesztők és kutatók számára.
A modell olyan fejlett funkciókat is tartalmaz, mint a pontos időbélyegzés, a nagybetűk használata, az írásjelek kezelése, valamint a dalok dalszöveggé történő átírása.

Miért fontos?

Az Nvidia továbbra is nemcsak a chipek piacát uralja, hanem nagy teljesítményű és nagyrészt open-source modelleket is kiad. A fárasztó gépelések ideje lejárt, és ez a nyílt, mégis élvonalbeli ASR modell jelentősen lecsökkenti a belépési küszöböt a fejlett beszédalkalmazások fejlesztése előtt. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az Nvidia az ügynököket helyezi a középpontba a COMPUTEX 2026-on

2026. június 2.

Az Nvidia open-source érvelő modelljei

2026. május 24.

Az Nvidia AI és robotikai előrelépései

2026. május 24.

Tudj meg többet

Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?