Az OpenAI elindította a Vision és Voice funkciókat a ChatGPT-hez

AI HÍREK

Az OpenAI elindította a Vision és Voice funkciókat a ChatGPT-hez

2023. szeptember 26. · MI Történik? · 1 perc olvasás

A ChatGPT tegnap két úttörő funkciót vezetett be. A ChatGPT képes „megérteni” a feltöltött képeket – legyen szó képernyőfotókról, fényképekről, dokumentumokról vagy egyebekről. Ez rendkívül hasznos olyankor, amikor látsz valamit, de nem érted. Emellett a ChatGPT már „beszélni” is tud. Ahelyett, hogy csak szövegesen válaszolna, a ChatGPT mostantól öt különböző, hivatásos szinkronszínészek által betanított hangon képes megszólalni. Ez főként akkor kényelmes, amikor szívesebben „hallgatnál”, mint „olvasnál”, például futópadon végzett gyorsgyaloglás közben. Hamarosan azonban látni fogjuk a munkarutinunkba integrált okosabb hangasszisztenseket (viszlát Siri!). Mindkét funkció a következő két hétben válik elérhetővé a Plus és Enterprise felhasználók számára (a Settings → New Features menüponton keresztül aktiválható).

Összetett grafikonok vagy adatvizualizációk értelmezése
Visszajelzés kérése dizájnokról vagy UX-ről
Nyugtákról és kiadásokról készült képek kategorizálása
Fizikai feladatokban való segítségnyújtás, például egy elromlott bicikli megjavítása
Vizuális azonosítási feladatok, például Waldo megtalálása egy képen

Miért fontos?

A multimodális AI végre megérkezett, és nem vagyunk meglepve, hiszen az OpenAI pontosan erre utalt még márciusban. De a nagyobb hatalommal nagyobb felelősség is jár az OpenAI szerint. Számítsunk rá, hogy a ChatGPT nemcsak többre lesz képes, hanem gyakrabban mond majd „nemet” is, hogy visszaszorítsa az új funkciókkal való visszaéléseket. ---

Eredeti forrás megtekintése (angol) →