AI MODELLEK
A Nomic AI kiadta a Nomic Embed-et, egy hosszú kontextusú, nyílt embedding modellt
A Nomic AI megjelentette a Nomic Embed-et, az első olyan open-source szöveges embedding modellt, amely hatalmas, 8 192 tokenes kontextusablakot támogat. A modell felülmúlja az OpenAI text-embedding-ada-002 modelljét az MTEB benchmarkon, miközben lényegesen hatékonyabb és teljes mértékben reprodukálható marad. Kifejezetten a hosszú dokumentumokat érintő Retrieval-Augmented Generation (RAG) feladatokra optimalizálták.
- 8 192 tokenes kontextusablakot támogat, ami 16-szor nagyobb, mint sok meglévő modellé.
- A tanítási adatokat és a teljes módszertant nyílt licenc alatt tették közzé.
- Folyamatosan felülmúlja a zárt forráskódú modelleket a szabványos visszakeresési benchmarkokon.
- Vektorbázisokban és szemantikus keresésben való nagy teljesítményű használatra optimalizálták.
Miért fontos?
Az open-source, hosszú kontextusú embeddingek alapvető fontosságúak azon fejlesztők számára, akik nagy teljesítményű visszakereső rendszereket építenek, és nagy dokumentumokat kell feldolgozniuk a kontextus elvesztése nélkül. ---