BETEKINTÉS
A Google Gemini ellenszélbe került az állítólagosan szerkesztett demó és a benchmark állítások miatt
„Google, ez kínos” – írta Santiago, egy Machine Learning mérnök a Twitteren, leírva a Google egyik demóvideóját az új Gemini AI modellhez, amely több millió megtekintést generált a különböző közösségi média platformokon.
A kérdéses videóban a Gemini zökkenőmentesen válaszol a neki megmutatott képekkel kapcsolatos kérdésekre. Van azonban egy nagy probléma ezzel a videóval: nem valós időben történik, ahogyan azt bemutatják. A Bloomberg cikke szerint a videódemót „nem valós időben vagy hangalapú interakcióval készítették”.
Ez az információ kétségeket ébresztett a modell képességeivel és teljesítményével kapcsolatban. Számos közösségi média profil és hírportál „hamisnak” nevezte a videót.
Egy másik vitatott pont, hogy a Gemini milyen jól teljesített az MMLU-n, amely egy népszerű benchmark az AI modellek tudásának és problémamegoldó képességének értékelésére. A Google azt állította, hogy a Gemini volt az első AI modell, amely felülmúlta az emberi szakértőket a teszten. Brett Winton (ArkInvest) és mások azonban rámutattak, hogy az eredményeket bizonyos promptolási technikák alkalmazásával érték el, és a Gemini valószínűleg elmarad mind az emberi szakértőktől, mind a GPT-4-től ezen a benchmarkon.
Bár a Google-t érő frusztráció és kritika egy része érthető, a „hazugsággal” vagy „hamisítással” való vádolás talán túlzás. A korábban említett demó YouTube-videójának leírásában a következő szerepel: „A demó céljából a késleltetést (latency) csökkentettük, és a Gemini válaszait a rövidség érdekében lerövidítettük.” Az MMLU-val kapcsolatos állításnál pedig a Google DeepMind weboldala jelzi, hogy különböző promptolási technikákat alkalmaztak.
Bár mindkét oldalnak vannak érvényes érvei, a Perplexity AI vezérigazgatója, Aravind Sriniva egyensúlyra törekvő véleményt fogalmazott meg tweetjében: „A valóság: a Gemini klassz. Az első modell, amely valóban összemérhető a GPT-4-gyel. Valódi teljesítmény. Különösen úgy, hogy ez csak egy sűrű (dense) modell volt. A marketing túlzó volt, de a DeepMind ismert az agresszív PR-ról. Az olyan demók, mint a multimodális videó, a valóságban kevesebb mint egy éven belül lehetségesek lesznek.”
- Kiderült, hogy egy vírusként terjedő demóvideót szerkesztettek a késleltetés javítása érdekében, és nem valós idejű hangalapú interakcióval rögzítették.
- A Bloomberg jelentése szerint a demó állóképeket és szöveges promptokat használt az élő videostream helyett.
- Szakértők állítják, hogy a Gemini győzelme az MMLU benchmarkon olyan specifikus promptolási technikákon alapult, amelyeket a GPT-4-nél nem alkalmaztak.
- A Google dokumentációja elismeri, hogy a válaszokat a rövidség érdekében megvágták, és a késleltetést csökkentették a demóhoz.
- Iparági vezetők szerint bár a marketing agresszív volt, a Gemini marad az első valódi sűrű modell (dense model) versenytársa a GPT-4-nek.
Miért fontos?
A vita rávilágít a Google-re nehezedő intenzív nyomásra, hogy visszaszerezze AI dominanciáját, ami olyan marketingstratégiákhoz vezetett, amelyek egyes kritikusok szerint félrevezetik a technológia jelenlegi állapotát. ---