AI MODELLEK
Az abu-dzabi TII kiadta a Falcon-H1 hibrid Attention-Mamba modellcsaládot
Az abu-dzabi Technology Innovation Institute (TII) kutatói kiadták a Falcon-H1-et, egy nyílt súlyú nagy nyelvi modell családot, amely a szabványos transformer architektúra és bizonyos state-space modellkomponensek kombinálásával kísérletezik. Az eredmény egy olyan modellcsalád, amely hatékonyan futtatható, és az alsóbb tartományokban state-of-the-art pontszámokat ér el különböző területeken. A Falcon csapat egyik figyelemre méltó jellemzője, hogy lényegében egy „szuverén AI” kutatócsoport – a TII egy olyan intézmény, amely kulcsfontosságú részévé vált Abu-Dzabi azon törekvésének, hogy kiépítse kompetenciáját az AI területén. Ez leginkább abból látszik, hogy a Falcon családot egy 4096 darab H100 GPU-ból álló fürtön tanították, ami sokkal nagyobb számítási kapacitás, mint amennyihez a legtöbb akadémikus hozzáfér.
- A szabványos attention fejeket Mamba-2 fejekkel kombinálja párhuzamos hibrid mixer blokkokban
- Hat méretben érhető el 0,5 milliárd és 34 milliárd paraméter között
- 18 nyelvet és 256 ezer tokenes kontextushosszt támogat
- Akár 18 billió tokenből álló masszív adatkorpuszon tanították
- A Falcon-H1-34B-Instruct teljesítménye vetekszik a sokkal nagyobb, 70 milliárdos léptékű modellekével
- Az 1,5 milliárdos Deep változat a szabványos 7-10 milliárdos modellekkel versenyképes teljesítményt nyújt
Miért fontos?
Ezek a Falcon modellek példázzák, hogyan néz ki a szememben az „AI akadémiai szféra ésszerű finanszírozása” – egy kormány bőséges számítási erőforrást biztosított ahhoz, hogy egy csapat olyan modelleket tanítson be és tegyen közzé, amelyek aztán a valódi használat során bizonyíthatnak. Emellett a kiadást egy szokatlanul részletes tanulmány kíséri (összehasonlítva a legfejlettebb zárt forráskódú modellek körüli homályos tudásállapottal). ---