AI TOOLS
Az Allen Institute for AI közzéteszi a nyílt OLMo nyelvi modellcsaládot
Az Allen Institute for AI létrehozta az OLMo-t, egy „valóban nyílt” nyelvi modellcsaládot, amelynek célja a tanítási folyamat demisztifikálása. Sok „nyílt” modellel ellentétben, amelyek csak a súlyokat teszik közzé, az OLMo a teljes keretrendszert biztosítja: adatokat, tanítási naplókat, értékelő eszközöket és több száz modell-ellenőrzőpontot (checkpoint). A kezdeti kiadás legfeljebb 7B méretű modelleket tartalmaz, egy 65B-s modell pedig jelenleg áll tanítás alatt. A projekt több számítási alapot is megvizsgált, beleértve az európai LUMI szuperszámítógépet.
- Közzéteszi a teljes tanítási folyamatot, beleértve a pontosan használt adatkészleteket és a tanítási naplókat.
- Több száz köztes modell-ellenőrzőpontot biztosít kutatási célokra.
- A tanításhoz a MosaicML cloud-ot és az AMD-alapú európai LUMI szuperszámítógépet egyaránt igénybe vették.
- A kezdeti modellek a többi nyílt modellhez, például a Falconhoz és az MPT-hez hasonló eredményeket mutatnak.
Miért fontos?
Az OLMo modellek teljesítménye nem annyira fontos a tanításuk során alkalmazott nyitottsághoz képest. Azzal, hogy nyilvánosan közzéteszik a tanultakat, a kutatók segítik a szélesebb kutatói közösséget a nyelvi modellek jobb tanulmányozásában.