MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

A Google kiadta a Gemini Embedding 2-t a multimodális adatleképezéshez

A Google megjelentette a Gemini Embedding 2-t, egy multimodális beágyazási (embedding) modellt, amely szöveget, képeket, videókat, hanganyagokat és PDF-eket képez le egy egységes vektortérbe. A modell a csak szöveges gemini-embedding-001 utódja, és a produkciós RAG rendszerek kiépítésének architekturális összetettségét kezeli azáltal, hogy feleslegessé teszi a különálló folyamatokat (pipelines) – a fejlesztők mostantól különböző modalitásokat kombinálhatnak egyetlen kérésben. A technikai korlátok közé tartozik a 8 192 szöveges token, hat kép, 120 másodpercnyi videó, 80 másodpercnyi hang és hat PDF-oldal. A Massive Text Embedding Benchmark teszten a Gemini Embedding 2 javulást mutat a visszakeresési pontosság és a tartományeltolódással (domain shift) szembeni rugalmasság terén: ez egy gyakori probléma, amikor a teljesítmény csökken, ha az általános tanítóadatokról speciális területekre, például saját tulajdonú kódokra vagy orvosi adatkészletekre váltanak. A modell nyilvános előnézetben (public preview) érhető el a Gemini API-n és a Vertex AI-n keresztül, opcionális feladattípus-paraméterekkel, amelyek optimalizálják a vektor-tulajdonságokat a specifikus műveletekhez.
Eredeti forrás megtekintése (angol) →