Adatok

A Google ATLAS keretrendszere formalizálja a többnyelvű AI modellek skálázási törvényeit

2026. február 11. · MI Történik? · 1 perc olvasás

A Google kutatói közzétették az ATLAS-t, egy olyan keretrendszert, amely meghatározza a többnyelvű nyelvi modellek hatékony tanításának módját több mint 400 nyelven. Az eredmények formalizálják a „többnyelvűség átkát” (a teljesítmény romlását új nyelvek hozzáadásakor) egy olyan skálázási törvény bevezetésével, amely figyelembe veszi a modell méretét, az adatmennyiséget és a nyelvek számát. Az eredmények azt mutatják, hogy kétszer annyi nyelv támogatásához a modell méretét 1,18-szorosára, a teljes tanítási adatmennyiséget pedig 1,66-szorosára kell növelni, miközben a pozitív transzfer ellensúlyozza a kapacitáskorlátokat. A korlátozott számítási költségvetéssel rendelkező szakemberek számára a keretrendszer meghatározza a meglévő többnyelvű modellek finomhangolása (fine-tuning) és a nulláról való előtanítás (pre-training) közötti megtérülési pontokat – ez általában 144 milliárd és 283 milliárd token között mozog a 2 milliárd paraméteres modellek esetében. Ez az útmutatás közvetlenül egy kritikus hiányosságot orvosol: az AI modellek felhasználóinak több mint 50 százaléka nem angol nyelven beszél, mégis a korábbi skálázási kutatások szinte kizárólag az angol egynyelvű környezetekre összpontosítottak.

Az ATLAS keretrendszer skálázási törvényt biztosít a több mint 400 nyelvet támogató modellekhez
A nyelvi támogatás megduplázásához a modell méretének 1,18-szoros növelése szükséges
A tanítási adatoknak 1,66-szorosára kell nőniük a teljesítmény megőrzéséhez a nyelvek számának duplázásakor
Meghatározza a megtérülési pontokat az előtanítás és a finomhangolás között 144B-283B tokennél
Formalizálja a „többnyelvűség átkát”, ahol a teljesítmény csökken a nyelvek hozzáadásával

Miért fontos?

Ez az útmutatás közvetlenül egy kritikus hiányosságot orvosol: az AI modellek felhasználóinak több mint 50 százaléka nem angol nyelven beszél, mégis a korábbi skálázási kutatások szinte kizárólag az angol egynyelvű környezetekre összpontosítottak. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Fehér Ház nemzeti AI politikai keretrendszert javasol az állami törvények felülírására

2026. március 25.

Az Arm összeállt a Meta-val az első saját tervezésű AGI CPU elindításához

2026. március 25.

A ServiceNow AI Research bemutatta az EVA-t, a hangalapú ágensek értékelési keretrendszerét

2026. március 25.

Tudj meg többet

Perplexity AI: A Google-kereső AI-vel felturbózva

Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?