A Google DeepMind létrehozta a MADLAD-400 adatkészletet és többnyelvű fordítómodelljeit

2023. szeptember 25. · MI Történik? · 1 perc olvasás

A Google DeepMind kutatói létrehozták a MADLAD-400-at, egy 491 nyelvet átfogó adatkészletet és modellcsaládot.

Mi az a MADLAD-400: A MADLAD-400 egy olyan adatkészlet, amely több mint 400 különböző nyelvet tartalmaz, 3 billió tokenre kiterjedve (a tisztítatlan, így zajosabb változat 5 billió token). Az adatkészletet úgy állították össze, hogy egy LangID modellt tanítottak be ~500 nyelvre, majd ezt a modellt használták egy nagy Common Crawl korpusz szűrésére, amiből létrejött a „MADLAD-400 noisy”. Miután megvolt ez az adatkészlet, számos minőségi szűrési lépést alkalmaztak a gyenge minőségű vagy hibás tartalmak eltávolítására. E folyamat során 79 nyelvet hagytak el, így a tisztított MADLAD-400 adatkészlet mérete körülbelül 419 nyelvre csökkent.

MADLAD modellek: A Google egy 10,7B paraméteres, többnyelvű gépi fordítómodellt is betanított és közzétett, amelyet 250 milliárd tokenen képeztek ki, és több mint 450 nyelvet fed le.

Az adatkészlet 491 nyelvet ölel fel 3 billió tokennyi tisztított adaton keresztül.
A kezdeti, tisztítatlan korpusz 5 billió tokenből állt.
A szűrési folyamat 419 kiváló minőségű nyelvre szűkítette a készletet.
Az adatok mellett egy 10,7B paraméteres többnyelvű fordítómodellt is kiadtak.
A fordítómodellt 250 milliárd tokenen tanították.

Miért fontos?

Az adatkészlet szűrési folyamatának dokumentálásával, valamint az adatok és az azokon alapuló modellek közzétételével a Google reméli, hogy további ösztönzést ad „az emberiség gazdag nyelvi sokszínűségét befogadó nyelvi technológiák kidolgozásához” – fogalmaztak a kutatók.

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Mondo Robotics bemutatta Benit, az autonóm kamerarobotot tartalomgyártók számára

5 órája

A Booster Robotics humanoidja falat is átütő rúgással debütált a futballbemutatón

8 órája

Az Aceii A1 mobil teniszrobot dinamikus AI-edzést kínál

8 órája

Tudj meg többet

Perplexity AI: A Google-kereső AI-vel felturbózva

Gemini a Gmail-ben és a Google Docs-ban: Így automatizáld a munkád