A Databricks kiadta a DBRX modellt, amely megközelíti a GPT-3.5 teljesítményét

AI MODELLEK

A Databricks kiadta a DBRX modellt, amely megközelíti a GPT-3.5 teljesítményét

2024. április 1. · MI Történik? · 1 perc olvasás

A Databricks megalkotta és kiadta a DBRX nyelvi modellt, amely nagyjából megközelíti az OpenAI GPT-3.5 teljesítményét, és legyőzi a népszerű, nyíltan hozzáférhető modelleket, mint a LLaMa2 és a Mixtral. A DBRX egy mixture-of-experts modell, amely körülbelül 132 milliárd paraméterből áll (bár egy adott időpontban csak 36 milliárd paramétert használ). A nyíltan hozzáférhető és a védett (proprietary) modellek közötti szakadék körülbelül 1,5 év: a DBRX nagyjából megközelíti (és néhány esetben le is győzi) az OpenAI GPT-3.5-öt, amelyet az OpenAI (text-davinci-003 néven) még 2022 novemberében adott ki.

Architektúra: Mixture-of-experts (MoE) 132 milliárd összesített és 36 milliárd aktív paraméterrel.
Tanítási költség: Körülbelül 10 millió dollár.
Tanítási hardver: 3072 darab Nvidia H100 GPU-t használtak két hónapon keresztül.
Teljesítmény: Több benchmark teszten is legyőzi a LLaMa2-t és a Mixtralt.

Miért fontos?

Divergencia mutatkozik a nyílt és a zárt ökoszisztémák között. Miközben a Databricks 10 millió dollárt költött egy egyéves védett modell megközelítésére, az olyan cégek, mint az Amazon és a Microsoft, a 100 millió és 1 milliárd dollár közötti egyedi tanítási folyamatok felé mozdulnak el, létrehozva az AI-hatalom két különálló "frontvonalát". ---

Eredeti forrás megtekintése (angol) →