AI HÍREK
Az OpenAI elindította a Vision és Voice funkciókat a ChatGPT-hez
A ChatGPT tegnap két úttörő funkciót vezetett be. A ChatGPT képes „megérteni” a feltöltött képeket – legyen szó képernyőfotókról, fényképekről, dokumentumokról vagy egyebekről. Ez rendkívül hasznos olyankor, amikor látsz valamit, de nem érted. Emellett a ChatGPT már „beszélni” is tud. Ahelyett, hogy csak szövegesen válaszolna, a ChatGPT mostantól öt különböző, hivatásos szinkronszínészek által betanított hangon képes megszólalni.
Ez főként akkor kényelmes, amikor szívesebben „hallgatnál”, mint „olvasnál”, például futópadon végzett gyorsgyaloglás közben. Hamarosan azonban látni fogjuk a munkarutinunkba integrált okosabb hangasszisztenseket (viszlát Siri!). Mindkét funkció a következő két hétben válik elérhetővé a Plus és Enterprise felhasználók számára (a Settings → New Features menüponton keresztül aktiválható).
- Összetett grafikonok vagy adatvizualizációk értelmezése
- Visszajelzés kérése dizájnokról vagy UX-ről
- Nyugtákról és kiadásokról készült képek kategorizálása
- Fizikai feladatokban való segítségnyújtás, például egy elromlott bicikli megjavítása
- Vizuális azonosítási feladatok, például Waldo megtalálása egy képen
Miért fontos?
A multimodális AI végre megérkezett, és nem vagyunk meglepve, hiszen az OpenAI pontosan erre utalt még márciusban. De a nagyobb hatalommal nagyobb felelősség is jár az OpenAI szerint. Számítsunk rá, hogy a ChatGPT nemcsak többre lesz képes, hanem gyakrabban mond majd „nemet” is, hogy visszaszorítsa az új funkciókkal való visszaéléseket. ---