A Meta CLIP 2 lehetővé teszi a nagy léptékű, többnyelvű kontrasztív nyelv-kép előtanítást

AI OKTÁTÁS

A Meta CLIP 2 lehetővé teszi a nagy léptékű, többnyelvű kontrasztív nyelv-kép előtanítást

2025. augusztus 4. · MI Történik? · 2 perc olvasás

A Meta, a Princeton University és a New York University kutatói megalkották a Meta CLIP 2-t, az OpenAI nagyra becsült CLIP modelljének nagyobb léptékű, többnyelvű változatát. A CLIP (Contrastive Language-Image Pretraining) egy olyan módszer, amellyel egy neurális háló párost tanítanak be a képek és szövegek megértésére, valamint az azok közötti megfeleltetésre. A CLIP egy olyan segédtechnológia, amelyet a felhasználási módok széles skáláján alkalmaznak, a képgenerálástól kezdve a képkeresésen át az osztályozásig. Az eredeti CLIP-et angol nyelvű szövegek és képek megfeleltetésére tanították. A Meta CLIP 2 egy felskálázott verzió, amely a nem angol nyelvű szövegeket is képekhez rendeli. A modell közzétételével együtt a Meta egy részletes tanulmányt is megjelentetett, amely bemutatja „az első receptet a CLIP alapoktól való betanítására világszintű, internetes léptékű kép-szöveg párokon”. A lépték minden: Ahogy általában, itt is a legfontosabb tanulság a méretezés. A korábbi kísérletek a CLIP többnyelvű változatainak betanítására kudarcot vallottak, ami az eredeti modellhez képest romló teljesítményhez vezetett. „Empirikusan megmutatjuk, hogy a többnyelvűség átka a CLIP-ben az elégtelen skálázás következménye, ami a világszintű adatkurálás és modellbetanítás megfelelő receptjének hiányából fakad”. A rendszer skálázásához a Metának három dolgot kellett tennie: 1) nagy léptékű, többnyelvű metaadatokat gyűjtött több mint 300 nyelven, 2) saját kurációs algoritmust épített egy reprezentatív többnyelvű adatkészlet összeállításához, és 3) kidolgozta az adatok megfelelő arányát és sorrendjét a rendszer betanításához. A lépték érzékeltetéséhez: az eredeti OpenAI CLIP-ben 12,8 milliárd pár volt, míg a CLIP 2-ben 29 milliárd. A fő betanítási trükk a „globális betanítási batch méret növelése volt, ami ösztönzi a nyelvek közötti tanulást, miközben a többi hiperparaméter változatlan marad. A globális batch 2,3-szoros növelését választottuk, hogy tükrözzük, az angol párok a betanítási adataink 44%-át teszik ki”.

Nagy léptékű, többnyelvű metaadatok gyűjtése több mint 300 nyelven
Egyedi kurációs algoritmus kifejlesztése reprezentatív többnyelvű adatokon való betanításhoz
A globális betanítási batch méret 2,3-szoros növelése a nyelvek közötti tanulás elősegítése érdekében
Az adatkészlet az eredeti CLIP 12,8 milliárd párjáról 29 milliárdra nőtt a CLIP 2-ben
0,8%-kal felülmúlja csak angol nyelvű társát a zero-shot kép-osztályozásban
Új state-of-the-art eredményeket ér el az olyan többnyelvű benchmark teszteken, mint a CVQA és az XM3600

Miért fontos?

A CLIP kevésbé egy önálló modell, inkább egy módszer arra, hogy az AI rendszereknek érzéket adjunk a körülöttük lévő világról azáltal, hogy képesek váltani az egyik tartományból a másikba (szöveg és képek), és közösen tudnak következtetni ezekről a területekről. Minél hatékonyabbá és reprezentatívabbá tesszük az ilyen rendszereket, annál jobban képesek lesznek gazdag, reprezentatív világképet adni az AI rendszereinknek. ---

Eredeti forrás megtekintése (angol) →