AI MODELLEK
A Databricks kiadta a DBRX modellt, amely megközelíti a GPT-3.5 teljesítményét
A Databricks megalkotta és kiadta a DBRX nyelvi modellt, amely nagyjából megközelíti az OpenAI GPT-3.5 teljesítményét, és legyőzi a népszerű, nyíltan hozzáférhető modelleket, mint a LLaMa2 és a Mixtral. A DBRX egy mixture-of-experts modell, amely körülbelül 132 milliárd paraméterből áll (bár egy adott időpontban csak 36 milliárd paramétert használ).
A nyíltan hozzáférhető és a védett (proprietary) modellek közötti szakadék körülbelül 1,5 év: a DBRX nagyjából megközelíti (és néhány esetben le is győzi) az OpenAI GPT-3.5-öt, amelyet az OpenAI (text-davinci-003 néven) még 2022 novemberében adott ki.
- Architektúra: Mixture-of-experts (MoE) 132 milliárd összesített és 36 milliárd aktív paraméterrel.
- Tanítási költség: Körülbelül 10 millió dollár.
- Tanítási hardver: 3072 darab Nvidia H100 GPU-t használtak két hónapon keresztül.
- Teljesítmény: Több benchmark teszten is legyőzi a LLaMa2-t és a Mixtralt.
Miért fontos?
Divergencia mutatkozik a nyílt és a zárt ökoszisztémák között. Miközben a Databricks 10 millió dollárt költött egy egyéves védett modell megközelítésére, az olyan cégek, mint az Amazon és a Microsoft, a 100 millió és 1 milliárd dollár közötti egyedi tanítási folyamatok felé mozdulnak el, létrehozva az AI-hatalom két különálló "frontvonalát". ---