MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra
Az Nvidia Llama 3.1 fine-tune-ja lekörözi a DeepSeek R1-et

Az Nvidia Llama 3.1 fine-tune-ja lekörözi a DeepSeek R1-et

Az Nvidia legújabb fejlesztése ismét rávilágított arra, hogy a mesterséges intelligencia világában nem feltétlenül csak a legújabb modellek jelentik a csúcstechnológiát. A chipóriás mérnökei a Meta által korábban kiadott Llama 3.1 modellt vették alapul, és egy speciális fine-tune eljárással olyan szintre emelték a képességeit, amellyel sikerült lekörözniük a piacon jelenleg egyik legfejlettebbnek számító DeepSeek R1-et is. Az Nvidia módosított verziója nem csupán a nyers teljesítményben mutatkozik erősebbnek, hanem jelentős előrelépést hozott az energiahatékonyság terén is, ami a hatalmas GPU kapacitásokat igénylő számítási feladatoknál kritikus szempont. Ez a fejlesztés különösen figyelemre méltó annak fényében, hogy a Llama 3.1 már hónapokkal ezelőtt megjelent, és azóta a Meta a múlt héten már a következő generációs Llama 4 modellt is elérhetővé tette.

A siker kulcsa az úgynevezett reasoning, vagyis a logikai következtetési képességek drasztikus javítása volt. Míg az alapmodellek általános feladatokra készülnek, az Nvidia finomhangolása kifejezetten az összetett, többlépcsős problémamegoldásra fókuszált. Ez a megközelítés bizonyítja, hogy a nyílt forráskódú open-source modellek élettartama és relevanciája messze túlmutat az eredeti megjelenési dátumukon. Mivel a technológiai közösség és a nagyvállalatok szabadon hozzáférhetnek a súlyokhoz és az architektúrához, bárki képes olyan fine-tuning folyamatokat végrehajtani, amelyek az eredeti specifikációkon messze túlmutató teljesítményt hoznak ki a rendszerből. Ez a rugalmasság az, ami miatt a nyílt ökoszisztéma gyakran felveszi a versenyt a teljesen zárt, kereskedelmi szoftverekkel.

Erre a trendre épít a Deep Cogito nevű, eddig kevésbé ismert startup is, amely szintén a nyílt forráskódú modellekben rejlő potenciált használja ki. A cég a Meta Llama és az Alibaba által fejlesztett Qwen modellek kombinálásával hozott létre egy új LLM-családot. Állításuk szerint ezek a hibrid megoldások jelenleg a kategóriájuk legjobb teljesítményét nyújtják, ami ismét csak azt igazolja, hogy a fine-tune és a különböző modellek intelligens ötvözése új utakat nyit az AI fejlesztésben. A startup példája jól mutatja, hogy nem feltétlenül kell a legnagyobb tech-óriásnak lenni ahhoz, hogy valaki élvonalbeli technológiát tegyen le az asztalra; elég, ha a meglévő, nyílt alapokat kreatívan és célzottan fejlesztik tovább.

Az Nvidia és a Deep Cogito eredményei egyaránt azt jelzik, hogy az AI szektor egyre inkább a specializáció és az optimalizáció irányába mozdul el. Nem elég pusztán nagyobb és több paraméterrel rendelkező modelleket építeni; a hangsúly áttevődik arra, hogyan lehet a meglévő architektúrákat okosabban, kevesebb energiával és célzottabb logikai képességekkel felruházni. Ez a folyamat hosszú távon fenntarthatóbbá teszi a technológiai fejlődést, hiszen a régebbi modellek nem avulnak el azonnal az újabb generációk érkezésével, hanem értékes alapanyagként szolgálnak a további innovációkhoz. Az open-source modell tehát nem csupán egy ingyenes alternatíva, hanem egy folyamatosan fejlődő ökoszisztéma, amely a közösségi tudás révén képes akár a legmodernebb zárt rendszereket is maga mögé utasítani.

Miért fontos?

A nyílt modellek élettartama gyakran hosszabb, mivel bárki képes a fine-tuning segítségével az eredeti specifikációkon messze túlmutató teljesítményt kihozni belőlük. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
Iráni hackerek AI-t használnak a dezinformációs és toborzási kampányok hatékonyabbá tételére
most
Az energiahatékonyság lett a legfőbb korlátozó tényező a jövőbeli AI-chipek tervezésénél
most
Az Asana felvásárolja a Stack AI-t a munkafolyamatok no-code ágensekkel történő automatizálására
most
Tudj meg többet
Helyi AI futtatása saját gépen: Útmutató az Ollama és LM Studio használatához
DeepSeek vs. ChatGPT vs. Claude: Melyik AI gondolkodik a legjobban?