A Gemini 1.5 multimodális képességei támogatják a hosszú videók valós világú elemzését

2024. szeptember 30. · MI Történik? · 1 perc olvasás

A Gemini 1.5 multimodális képességei számos olyan valós alkalmazást tesznek lehetővé, amellyel más modellek nem tudnak versenyre kelni, például órás videók vagy teljes könyvek feldolgozását és elemzését a 2 millió tokenes kontextusablaknak köszönhetően. Kilpatrick kiemelte, hogy az a képesség, hogy egy órás videót bedobhatunk az AI Studio-ba és kérdéseket tehetünk fel róla, "észbontó" élmény. Mivel a modellt az alapoktól kezdve multimodálisnak tervezték, nagyságrendekkel több fontos felhasználási esetet kínál a nem-szöveges adatokra támaszkodó fejlesztők és vállalkozások számára.

A 2 millió tokenes kontextusablak lehetővé teszi órás videók és teljes könyvek elemzését.
A multimodális felépítés lehetővé teszi a videó, audio és szöveg egyidejű, natív feldolgozását.
Az AI Studio ingyenes környezetet biztosít a felhasználóknak a hosszú kontextusú multimodális utasítások tesztelésére.
A Google közzétett egy listát 185 valós generatív AI felhasználási esetről különböző szervezetektől.
A modell célja az olyan összetett, valós problémák megoldása, amelyek mély tartalommegértést igényelnek.

Miért fontos?

A Gemini 1.5 2 millió tokenes kontextusablaka lehetővé teszi hosszú formátumú tartalmak, például hosszú videók, teljes könyvek és terjedelmes podcastok feldolgozását és elemzését, új lehetőségeket nyitva a tartalomelemzés és az interakció terén. ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

A Mondo Robotics bemutatta Benit, az autonóm kamerarobotot tartalomgyártók számára

5 órája

A Booster Robotics humanoidja falat is átütő rúgással debütált a futballbemutatón

8 órája

Az Aceii A1 mobil teniszrobot dinamikus AI-edzést kínál

8 órája

Tudj meg többet

ChatGPT vs Claude vs Gemini - Melyiket válaszd 2026-ban?

AI a tartalomgyártásban: Hogyan készíts profi videókat és prezentációkat percek alatt