Hírek, amikről érdemes tudni
A Google a nyers SDK-támogatáson keresztül fejleszti a Gemini 2.5 videóértelmezési képességét
A Google feszegeti a határokat abban, hogy a Gemini mit képes megérteni a videókból. A Gemini modellek az első naptól kezdve alkalmasak voltak erre. Technikailag ez nem „videó”, hanem képek (másodpercenként 1 képkockás mintavételezéssel) és hang összefűzve. Korábban a) a teljesítmény nem volt az igazi, és b) fejlesztőként magadnak kellett megoldanod a hang, a képek stb. manuális átadását. 2024 vége óta a Gemini képes közvetlenül fogadni a nyers videót az SDK-n keresztül, az új Gemini 2.5 modellek pedig annyira jók, hogy az 1 fps mintavételezés a legtöbb feladathoz elegendő.
- A Gemini 2.5 modellek mostantól közvetlenül az SDK-n keresztül támogatják a nyers videóbemenetet
- Másodpercenként 1 képkockás mintavételezési technikát alkalmaz, hanggal összefűzve
- Megszünteti a fejlesztők azon kényszerét, hogy manuálisan válasszák szét a videó- és hangösszetevőket
- A javult teljesítménynek köszönhetően az 1 fps mintavételezés a legtöbb logikai feladathoz elegendő