AI RESEARCH
A Google ATLAS tanulmánya megoldja a többnyelvű AI "tervrajz-problémáját"
Gondolkodott már azon, miért beszél a ChatGPT jobban angolul, mint például szuahéliül vagy arabul? Ez nem véletlen, és nem is az angol nyelv különleges előnye a tanítóadatokban; ez tiszta matematika. Az AI-cégek eddig sötétben tapogatóztak a nem angol nyelvű modellek építésekor, csak találgatták, mennyi adatot használjanak és mely nyelveket tanítsák együtt.
A Google kutatócsoportja most tette közzé az ATLAS-t, a többnyelvű AI-tanítás eddigi legnagyobb nyilvános tanulmányát. 774 kísérletet végeztek több mint 400 nyelven, hogy választ adjanak a fejlesztőket foglalkoztató kérdésekre: Mennyivel kell nagyobbnak lennie a modellnek, ha 10 helyett 50 nyelvet akarsz támogatni? Mely nyelvek segítik egymást valójában a tanítás során?
A kulcsfontosságú áttörés: Az ATLAS létrehoz egy "transzfer mátrixot", amely megmutatja, mely nyelvek javítják egymás teljesítményét. A norvég nyelv javul, ha svéddel és némettel együtt tanítják. A maláj profitál az indonézből. Az arab jobb lesz a héber segítségével. A minta? Az azonos ábécét és nyelvcsaládot használó nyelvek segítik egymást a leginkább.
Foglalkoztak a "többnyelvűség átkával" is, vagyis azzal a ténnyel, hogy több nyelv hozzáadása általában rontja a teljesítményet. Jó hír: az átok létezik, de enyhe. A közös írásrendszerű nyelvek elég pozitív szinergiát teremtenek ahhoz, hogy ellensúlyozzák a legtöbb kapacitásbeli korlátot.
Mi következik: Az olyan cégek modellfejlesztői, mint az Anthropic, az OpenAI és a Google, valószínűleg átveszik ezeket a skálázási elveket a következő 6-12 hónapban (talán a kínai laborok is!). Ha többnyelvű AI-termékeket épít vagy értékel, nézze meg, mely nyelveket részesítették előnyben a tanítás során; az ATLAS megmutatja, hogy ezeknek a döntéseknek mérhető hatásuk van.
- Skálázási kalkulátor: Ha meg akarod duplázni a nyelvi támogatást (K-ról 2K nyelvre), növeld a modell méretét 1,18-szorosára, az összes adatot pedig 1,66-szorosára.
- Nyelv-párosítási útmutató: Egy hőtérkép, amely megmutatja, mely nyelvek működnek együtt a legjobban; az angol, a francia és a spanyol segíti a legtöbb nyelvet összességében.
- Pre-train vs. fine-tune döntés: Egy képlet, amely megmutatja, mikor érdemes elölről kezdeni, és mikor egy meglévő többnyelvű modellre építeni (általában 144-283 milliárd token között egy 2 milliárd paraméteres modellnél).
Miért fontos?
Az AI-felhasználók több mint 50%-a nem angol anyanyelvű, de a skálázási törvények eddig túlnyomórészt az angolra összpontosítottak. A többnyelvű AI-t építő fejlesztők eddig költséges találgatásokba bocsátkoztak a modellméretet és a tanítóadatokat illetően. Az ATLAS egy adatvezérelt útvonalat kínál nekik. Várhatóan a többnyelvű modellek következő hulláma már az angolon kívüli nyelveken is jól fog működni, mert a cégek most már pontosan tudják, hogyan osszák el hatékonyan a számítási kapacitást a nyelvek között. ---