MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A világ legkisebb videós nyelvi modellje

A Hugging Face kutatói a közelmúltban jelentették be a SmolVLM2 modellcsalád megjelenését, amely mérföldkövet jelent az AI technológia fejlődésében. Ez az innovatív modellcsalád a világ legkisebb olyan videós nyelvi modellje, amely képes komplex videóanyagok értelmezésére és részletes elemzésére anélkül, hogy a háttérben nagy teljesítményű szerverekre vagy állandó felhőkapcsolatra lenne szükség. A technológia különlegessége, hogy a fejlesztéseknek köszönhetően ezek a modellek immár a hétköznapi felhasználók által is birtokolt eszközökön, így okostelefonokon és laptopokon is hatékonyan futtathatók, ami jelentősen csökkenti a számítási igényeket.

A SmolVLM2 ereje a skálázhatóságban rejlik, hiszen a család kínálata a kifejezetten kompakt, mindössze 256 millió paraméterrel rendelkező verzióktól egészen a 2,2 milliárd paraméteres zászlóshajó modellig terjed. Bár a legkisebb modellek méretükben elenyészőnek tűnnek, teljesítményük mégis képes felvenni a versenyt a jóval nagyobb és erőforrás-igényesebb rendszerekkel. A fejlesztőcsapat a gyakorlati felhasználhatóságra is nagy hangsúlyt fektetett: már elérhető például egy iPhone-ra optimalizált alkalmazás, amely lehetővé teszi a videók helyi elemzését, illetve egy természetes nyelven alapuló videós navigációs integráció is rendelkezésre áll. A legnagyobb, 2,2 milliárd paraméteres modell a kulcsfontosságú benchmark teszteken rendre felülmúlja a hasonló kategóriájú megoldásokat, miközben továbbra is kompatibilis az alapvető hardverekkel.

A fejlesztők a minél szélesebb körű elérhetőség érdekében több formátumban is kiadták a modelleket, így az Apple eszközökre szánt MLX keretrendszer mellett Python és Swift API-k is segítik a fejlesztőket az azonnali bevethetőségben. Ez a technológiai áttörés azért bír kiemelt jelentőséggel, mert a helyi eszközökön futtatható AI minőségének drasztikus javulása új korszakot nyit meg. Mivel a videóelemzés folyamata nem igényel adatküldést a felhőbe, a felhasználók magánélete és személyes adatai sokkal nagyobb biztonságban maradnak. A SmolVLM2 révén a jövőben olyan adatvédelmi szempontból kifogástalan, lokálisan működő videós alkalmazások jelenhetnek meg, amelyek a felhőalapú megoldások kényelmét ötvözik a helyi futtatás biztonságával és gyorsaságával.

Miért fontos?

A telefonokon és laptopokon futtatható modellek minősége egyre jobb – a kifinomult, helyi videóelemzés felhőbe küldött adatok nélkül a magánéletet védő videós alkalmazások teljesen új hullámát indíthatja el. ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
A Hugging Face 235 millió dollárt gyűjtött technológiai óriásoktól
2023. augusztus 25.
NYT-újságíró AI segítségével, ingatlanügynök nélkül adta el házát
most
Az Anthropic megerősítette, hogy a nagyteljesítményű Mythos modell hamarosan elérhető lesz a nyilvánosság számára
most
Tudj meg többet
AI és robotika: Hogyan alakítják át a világunkat 2026-ban
Nagy nyelvi modellek (LLM): Hogyan működnek a ChatGPT-féle rendszerek?