A ChatGPT Advanced Voice Mode valós idejű látási képességekkel bővült

OPENAI

A ChatGPT Advanced Voice Mode valós idejű látási képességekkel bővült

2024. december 13. · MI Történik? · 1 perc olvasás

Az OpenAI élő közvetítéssorozatának 6. napján jelentős frissítést mutatott be a ChatGPT Advanced Voice Mode-hoz, amely lehetővé teszi az AI számára, hogy elemezze az élő videóbemenetet és a képernyőmegosztást, majd reagáljon is azokra a beszélgetés során.

A felhasználók élő videót mutathatnak vagy megoszthatják képernyőjüket az Advanced Voice Mode használata közben, a ChatGPT pedig valós időben értelmezi és megvitatja a vizuális kontextust.
A funkció a mobilalkalmazásban egy új videó ikonon keresztül érhető el, a képernyőmegosztás pedig egy külön menüpontban található.
A frissítések a ChatGPT Plus, Pro és Team előfizetők számára elérhetőek, az Enterprise és Edu felhasználók pedig januárban kapnak hozzáférést.
Az OpenAI egy ünnepi hangopciót is bevezetett, amellyel a felhasználók Mikulással cseveghetnek szezonális kiegészítésként január elejéig.

Miért fontos?

Hét hónappal az első demó után az OpenAI végre beváltja az ígéretét a társalgási AI vizuális értelmezésével kapcsolatban – a ChatGPT-t a szövegen és hangon túl a valódi multimodális interakció irányába mozdítva el. Ez egy fontos hét volt a látás (vision) szempontjából, hiszen a Gemini és a ChatGPT Advanced Voice is rendívül erőteljes új képességekkel gazdagodott. ---

Eredeti forrás megtekintése (angol) →