MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az Allen Institute kiadja az OLMo-t, a valóban nyílt forráskódú nagy nyelvi modellt

Az Allen Institute for AI megalkotta az OLMo-t, a „valóban nyílt” nyelvi modellek családját. Az OLMo modellek különlegessége a „minden részletre kiterjedő” publikációs stratégia – az adatok és a kutatási tanulmány mellett az Allen Institute több száz modell-ellenőrzőpontot (checkpoint) is közzétesz, lehetővé téve a kutatók számára a modell betanításának teljes folyamatát. A kezdeti kiadás legfeljebb 7B paraméteres modelleket tartalmaz, míg egy 65B-s modell a tanulmány szerint „még tanítás alatt áll”. Az OLMo a teljes keretrendszert elérhetővé teszi az adatoktól kezdve a betanításon át az értékelő eszközökig: számos tréning checkpointot különböző hardvertípusokhoz, tréning naplókat és a pontosan felhasznált adatkészleteket, mindezt engedékeny licenc alatt. Ez az első lépés egy hosszúra tervezett kiadássorozatban, amely később nagyobb modellekkel, instrukció-hangolt változatokkal, valamint több modalitással és variánssal folytatódik. Érdekesség, hogy az Allen Institute két különböző számítási platformot is kipróbált a projekthez: a Databricks MosaicML felhőjét, valamint az (AMD-alapú!) európai LUMI szuperszámítógépet. A tesztek során az OLMo modellek a Falconhoz és az MPT családhoz hasonló, nyíltan elérhető modellekéhez mérhető eredményeket értek el.
Miért fontos?

Az OLMo modellek teljesítménye kevésbé fontos ahhoz a nyíltsághoz képest, amellyel betanították őket (hasonlóan a BLOOM modellhez, amely a GPT3 replikálására törekedett). Azzal, hogy nyíltan publikálják a tapasztalataikat és a modell-leleteket, a kutatók segítenek a szélesebb szakmai közösségnek a nyelvi modellek jobb tanulmányozásában. ---

Eredeti forrás megtekintése (angol) →