Az abu-dzabi TII kiadta a Falcon-H1 hibrid Attention-Mamba modellcsaládot

AI MODELLEK

Az abu-dzabi TII kiadta a Falcon-H1 hibrid Attention-Mamba modellcsaládot

2025. augusztus 4. · MI Történik? · 1 perc olvasás

Az abu-dzabi Technology Innovation Institute (TII) kutatói kiadták a Falcon-H1-et, egy nyílt súlyú nagy nyelvi modell családot, amely a szabványos transformer architektúra és bizonyos state-space modellkomponensek kombinálásával kísérletezik. Az eredmény egy olyan modellcsalád, amely hatékonyan futtatható, és az alsóbb tartományokban state-of-the-art pontszámokat ér el különböző területeken. A Falcon csapat egyik figyelemre méltó jellemzője, hogy lényegében egy „szuverén AI” kutatócsoport – a TII egy olyan intézmény, amely kulcsfontosságú részévé vált Abu-Dzabi azon törekvésének, hogy kiépítse kompetenciáját az AI területén. Ez leginkább abból látszik, hogy a Falcon családot egy 4096 darab H100 GPU-ból álló fürtön tanították, ami sokkal nagyobb számítási kapacitás, mint amennyihez a legtöbb akadémikus hozzáfér.

A szabványos attention fejeket Mamba-2 fejekkel kombinálja párhuzamos hibrid mixer blokkokban
Hat méretben érhető el 0,5 milliárd és 34 milliárd paraméter között
18 nyelvet és 256 ezer tokenes kontextushosszt támogat
Akár 18 billió tokenből álló masszív adatkorpuszon tanították
A Falcon-H1-34B-Instruct teljesítménye vetekszik a sokkal nagyobb, 70 milliárdos léptékű modellekével
Az 1,5 milliárdos Deep változat a szabványos 7-10 milliárdos modellekkel versenyképes teljesítményt nyújt

Miért fontos?

Ezek a Falcon modellek példázzák, hogyan néz ki a szememben az „AI akadémiai szféra ésszerű finanszírozása” – egy kormány bőséges számítási erőforrást biztosított ahhoz, hogy egy csapat olyan modelleket tanítson be és tegyen közzé, amelyek aztán a valódi használat során bizonyíthatnak. Emellett a kiadást egy szokatlanul részletes tanulmány kíséri (összehasonlítva a legfejlettebb zárt forráskódú modellek körüli homályos tudásállapottal). ---

Eredeti forrás megtekintése (angol) →