Az Allen Institute for AI közzéteszi a nyílt OLMo nyelvi modellcsaládot

AI TOOLS

Az Allen Institute for AI közzéteszi a nyílt OLMo nyelvi modellcsaládot

2024. február 12. · MI Történik? · 1 perc olvasás

Az Allen Institute for AI létrehozta az OLMo-t, egy „valóban nyílt” nyelvi modellcsaládot, amelynek célja a tanítási folyamat demisztifikálása. Sok „nyílt” modellel ellentétben, amelyek csak a súlyokat teszik közzé, az OLMo a teljes keretrendszert biztosítja: adatokat, tanítási naplókat, értékelő eszközöket és több száz modell-ellenőrzőpontot (checkpoint). A kezdeti kiadás legfeljebb 7B méretű modelleket tartalmaz, egy 65B-s modell pedig jelenleg áll tanítás alatt. A projekt több számítási alapot is megvizsgált, beleértve az európai LUMI szuperszámítógépet.

Közzéteszi a teljes tanítási folyamatot, beleértve a pontosan használt adatkészleteket és a tanítási naplókat.
Több száz köztes modell-ellenőrzőpontot biztosít kutatási célokra.
A tanításhoz a MosaicML cloud-ot és az AMD-alapú európai LUMI szuperszámítógépet egyaránt igénybe vették.
A kezdeti modellek a többi nyílt modellhez, például a Falconhoz és az MPT-hez hasonló eredményeket mutatnak.

Miért fontos?

Az OLMo modellek teljesítménye nem annyira fontos a tanításuk során alkalmazott nyitottsághoz képest. Azzal, hogy nyilvánosan közzéteszik a tanultakat, a kutatók segítik a szélesebb kutatói közösséget a nyelvi modellek jobb tanulmányozásában.

Eredeti forrás megtekintése (angol) →