MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Google kiadta a Gemini Embedding 2-t a multimodális adatleképezéshez

A Google megjelentette a Gemini Embedding 2-t, egy multimodális beágyazási (embedding) modellt, amely szöveget, képeket, videókat, hanganyagokat és PDF-eket képez le egy egységes vektortérbe. A modell a csak szöveges gemini-embedding-001 utódja, és a produkciós RAG rendszerek kiépítésének architekturális összetettségét kezeli azáltal, hogy feleslegessé teszi a különálló folyamatokat (pipelines) – a fejlesztők mostantól különböző modalitásokat kombinálhatnak egyetlen kérésben. A technikai korlátok közé tartozik a 8 192 szöveges token, hat kép, 120 másodpercnyi videó, 80 másodpercnyi hang és hat PDF-oldal. A Massive Text Embedding Benchmark teszten a Gemini Embedding 2 javulást mutat a visszakeresési pontosság és a tartományeltolódással (domain shift) szembeni rugalmasság terén: ez egy gyakori probléma, amikor a teljesítmény csökken, ha az általános tanítóadatokról speciális területekre, például saját tulajdonú kódokra vagy orvosi adatkészletekre váltanak. A modell nyilvános előnézetben (public preview) érhető el a Gemini API-n és a Vertex AI-n keresztül, opcionális feladattípus-paraméterekkel, amelyek optimalizálják a vektor-tulajdonságokat a specifikus műveletekhez.

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
Epicure: Egy többnyelvű AI összetevő-beágyazó modell receptanalízishez
2026. május 28.
Claude Mythos: Az Anthropic állítólag rendkívül erős, még meg nem jelent AI modellje
2026. április 15.
Az Anthropic egy védetlen adatbázison keresztül szivárogtatta ki a nagy teljesítményű Claude Mythos modellt
2026. március 30.
Tudj meg többet
Gemini a Gmail-ben és a Google Docs-ban: Így automatizáld a munkád
Gemini AI: A Google mesterséges intelligenciája közérthetően