MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Google DeepMind létrehozta a MADLAD-400 adatkészletet és többnyelvű fordítómodelljeit

A Google DeepMind kutatói létrehozták a MADLAD-400-at, egy 491 nyelvet átfogó adatkészletet és modellcsaládot. Mi az a MADLAD-400: A MADLAD-400 egy olyan adatkészlet, amely több mint 400 különböző nyelvet tartalmaz, 3 billió tokenre kiterjedve (a tisztítatlan, így zajosabb változat 5 billió token). Az adatkészletet úgy állították össze, hogy egy LangID modellt tanítottak be ~500 nyelvre, majd ezt a modellt használták egy nagy Common Crawl korpusz szűrésére, amiből létrejött a „MADLAD-400 noisy”. Miután megvolt ez az adatkészlet, számos minőségi szűrési lépést alkalmaztak a gyenge minőségű vagy hibás tartalmak eltávolítására. E folyamat során 79 nyelvet hagytak el, így a tisztított MADLAD-400 adatkészlet mérete körülbelül 419 nyelvre csökkent. MADLAD modellek: A Google egy 10,7B paraméteres, többnyelvű gépi fordítómodellt is betanított és közzétett, amelyet 250 milliárd tokenen képeztek ki, és több mint 450 nyelvet fed le.
Miért fontos?

Az adatkészlet szűrési folyamatának dokumentálásával, valamint az adatok és az azokon alapuló modellek közzétételével a Google reméli, hogy további ösztönzést ad „az emberiség gazdag nyelvi sokszínűségét befogadó nyelvi technológiák kidolgozásához” – fogalmaztak a kutatók.

Eredeti forrás megtekintése (angol) →