A Databricks kiadta a DBRX-et, amely 10 millió dollárból közelíti meg a GPT-3.5 teljesítményét

NYÍLT FORRÁSKÓDÚ AI

A Databricks kiadta a DBRX-et, amely 10 millió dollárból közelíti meg a GPT-3.5 teljesítményét

2024. április 1. · MI Történik? · 1 perc olvasás

A Databricks megalkotta és közzétette a DBRX-et, egy olyan nyelvi modellt, amely nagyjából hozza az OpenAI GPT-3.5 szintjét, és felülmúlja a népszerű nyíltan hozzáférhető modelleket, mint a LLaMa2 és a Mixtral. A DBRX egy mixture-of-experts modell, amely körülbelül 132 milliárd paraméterrel rendelkezik (bár egyszerre csak 36 milliárd paramétert használ). A nyíltan hozzáférhető és a zárt forráskódú modellek közötti szakadék nagyjából 1,5 év: a DBRX nagyjából megközelíti (és néhány esetben le is győzi) az OpenAI GPT-3.5-öt, amelyet az OpenAI még 2022 novemberében adott ki (text-davinci-003 néven).

Architektúra: Mixture-of-experts összesen 132 milliárd paraméterrel (ebből 36 milliárd aktív).
Tanítási költség: Körülbelül 10 millió dollár.
Számítási kapacitás: Két hónapnyi tanítás nagyjából 3072 darab Nvidia H100 GPU-n.
Teljesítmény: Több benchmark teszten is megelőzi a LLaMa2-t és a Mixtralt.

Miért fontos?

Egyre nagyobb a távolság a nyílt ökoszisztéma és a zárt, élvonalbeli modellek között. Miközben a nyílt modelleknek 10 millió dollárba kerül beérni a régebbi zárt modelleket, a piacvezetők, mint az Amazon, már közel 100 millió dollárt költenek egy-egy tanítási folyamatra, és már az 1 milliárd dolláros futtatásokat tervezgetik. ---

Eredeti forrás megtekintése (angol) →