MOZILLA ADATKOLLEKTÍVA
A Mozilla Data Collective nyílt, többnyelvű adatkészleteket tett közzé az AI-fejlesztéshez
A Mozilla Data Collective egy új platform a valós adatok megosztására, amely több mint 300 nyelvű, multimodális adatkészletnek ad otthont, melyeket közvetlenül a közreműködők hoztak létre és gondoztak. Egyedi, megengedő licencű adatkészleteket publikálnak ASR, TTS, fordítás és SLM célokra, amelyek a datacollective Python-csomagon keresztül érhetők el.
- Text-to-speech: Bolgár korpusz TTS-hez.
- Kódváltás (code-switching): Navatl (Nahuatl) nyelvű, kódváltással annotált párbeszédek.
- Fiatalok beszéde: Indonéz fiatalok beszédéből álló hangkorpusz.