A Google DeepMind létrehozta a MADLAD-400 adatkészletet és többnyelvű fordítómodelljeit
A Google DeepMind kutatói létrehozták a MADLAD-400-at, egy 491 nyelvet átfogó adatkészletet és modellcsaládot.
Mi az a MADLAD-400: A MADLAD-400 egy olyan adatkészlet, amely több mint 400 különböző nyelvet tartalmaz, 3 billió tokenre kiterjedve (a tisztítatlan, így zajosabb változat 5 billió token). Az adatkészletet úgy állították össze, hogy egy LangID modellt tanítottak be ~500 nyelvre, majd ezt a modellt használták egy nagy Common Crawl korpusz szűrésére, amiből létrejött a „MADLAD-400 noisy”. Miután megvolt ez az adatkészlet, számos minőségi szűrési lépést alkalmaztak a gyenge minőségű vagy hibás tartalmak eltávolítására. E folyamat során 79 nyelvet hagytak el, így a tisztított MADLAD-400 adatkészlet mérete körülbelül 419 nyelvre csökkent.
MADLAD modellek: A Google egy 10,7B paraméteres, többnyelvű gépi fordítómodellt is betanított és közzétett, amelyet 250 milliárd tokenen képeztek ki, és több mint 450 nyelvet fed le.
- Az adatkészlet 491 nyelvet ölel fel 3 billió tokennyi tisztított adaton keresztül.
- A kezdeti, tisztítatlan korpusz 5 billió tokenből állt.
- A szűrési folyamat 419 kiváló minőségű nyelvre szűkítette a készletet.
- Az adatok mellett egy 10,7B paraméteres többnyelvű fordítómodellt is kiadtak.
- A fordítómodellt 250 milliárd tokenen tanították.
Miért fontos?
Az adatkészlet szűrési folyamatának dokumentálásával, valamint az adatok és az azokon alapuló modellek közzétételével a Google reméli, hogy további ösztönzést ad „az emberiség gazdag nyelvi sokszínűségét befogadó nyelvi technológiák kidolgozásához” – fogalmaztak a kutatók.