Hatalmas többnyelvű audio adatbázist tett közzé az MLCommons és a Hugging Face

2026. május 25. · MI Történik? · 1 perc olvasás

Hatalmas áttörést jelent az AI szektor számára, hogy az MLCommons és a Hugging Face közös együttműködésben közzétette a "People's Speech" névre keresztelt, gigantikus méretű többnyelvű audio adatbázisát. A projekt keretében több mint 1 millió órányi hanganyagot tettek elérhetővé a fejlesztők és kutatók számára, amely összesen 89 különböző nyelvet fed le. Ez a hihetetlen mennyiségű adat az open-source közösség számára nyújtott nyílt forrású erőforrásként jelenik meg, amelynek elsődleges célja a beszédfelismerő rendszerek és a hangalapú AI alkalmazások fejlesztésének radikális felgyorsítása.

Az adatbázis különlegessége a felügyelet nélküli gyűjtési módszerében rejlik, ami lehetővé tette, hogy ilyen nagy volumenű és változatos hanganyagot rendszerezzenek. A 89 nyelv támogatása kulcsfontosságú a mai globális AI fejlesztésekben, hiszen a legtöbb modell jelenleg még mindig az angol nyelvre fókuszál, miközben a valódi felhasználói igények világszerte sokkal színesebb nyelvi spektrumot igényelnek. Az ilyen típusú adatbázisok hiánya eddig komoly akadályt gördített a kisebb nyelveket támogató technológiák elé, a People's Speech azonban most olyan alapokat biztosít, amelyekkel a kutatók és a startupok sokkal kifinomultabb, pontosabb és hatékonyabb hangalapú modelleket hozhatnak létre.

Ez a kezdeményezés nem csupán technikai mérföldkő, hanem az AI demokratizációjának egy újabb lépcsőfoka is. Mivel az adatbázis mindenki számára hozzáférhető, a startupok számára megszűnik az a jelentős költség- és időbeli akadály, amit az ilyen méretű adatkészletek saját erőből történő összegyűjtése és feldolgozása jelentene. A nyílt hozzáférés révén az AI közösség gyorsabban tud majd reagálni a technológiai kihívásokra, az adatbázis révén pedig a beszédfelismerés terén tapasztalható szakadékok csökkenhetnek. A fejlesztők mostantól olyan hatalmas adathalmazra támaszkodhatnak, amely garantálja, hogy a jövő AI alkalmazásai nemcsak okosabbak, de kulturálisan és nyelvileg is sokkal inkluzívabbak lesznek, ami a technológiai fejlődés elengedhetetlen feltétele a digitális világban.

1 millió órányi hanganyagot tartalmaz
89 nyelvet fed le a többnyelvű AI fejlesztések támogatásához
Open-source erőforrásként jelent meg az AI közösség számára
--

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

Az OpenAI nonprofit szervezeteknek és időseknek szóló forrásokkal bővíti az AI Akadémiát

2026. május 25.

Az OpenAI o3-mini-high modelljét használták egy bonyolult fizikai kutatási probléma megoldására

2026. május 25.

A Google elérhetővé tette a Gemini 2.5 Pro-t az API-n keresztül a fejlesztők számára

2026. május 25.