MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Az OpenAI bemutatta a Voice Engine-t a hangok audio-mintákból történő replikálására

Az OpenAI nemrégiben rántotta le a leplet legújabb fejlesztéséről, a Voice Engine technológiáról, amely alapjaiban írhatja át az audiotartalmak létrehozásának és manipulálásának lehetőségeit. Az új AI-modell lényege, hogy egy mindössze 15 másodperces hangminta alapján képes pontosan lemásolni bárkinek a hangját, megőrizve az eredeti beszélő egyedi stílusjegyeit és érzelmi tónusát. A technológia különlegessége, hogy a replikált hangot képes bármilyen idegen nyelven megszólaltatni, miközben az eredeti beszélő jellegzetességei megmaradnak. Bár a fejlesztés lenyűgöző képességekkel bír, az OpenAI egyelőre szigorúan titokban tartja a Voice Engine-t, és csak korlátozott keretek között teszteli, mivel a technológia által hordozott visszaélési lehetőségek és etikai kockázatok rendkívül magasak.

A Voice Engine gyakorlati alkalmazása számos területen nyithat új kapukat a tartalomkészítők és vállalatok számára. Például a HeyGenhez hasonló eszközökkel kombinálva lehetővé válik a videós tartalmak zökkenőmentes lefordítása más nyelvekre úgy, hogy a beszélő hangja természetes maradjon, ezzel lebontva a nyelvi akadályokat a globális kommunikációban. A marketing szakemberek számára a technológia lehetővé teszi, hogy egyetlen rögzített anyagból több száz különböző hangú és stílusú hirdetést teszteljenek, jelentősen optimalizálva ezzel a kampányok hatékonyságát. Ezenfelül az olyan AI-generált audiotartalmak, mint amilyeneket a Perplexity Discover Daily is alkalmaz, új szintre emelhetik a személyre szabott híradások és podcastok élményét, ahol az AI képes a felhasználó által kedvelt stílusban, akár több nyelven is prezentálni az információkat.

Ugyanakkor az éremnek van egy sötétebb oldala is, hiszen a technológia demokratizálódása komoly veszélyeket rejt magában a kiberbiztonság és az egyéni adatok védelme terén. A visszaélések kockázata már most is valós, gondoljunk csak a korábbi deepfake robocall hívásokra, ahol a technológiát rosszindulatú célokra, például politikai befolyásolásra vagy éppen pénzügyi csalásokra használták. Emlékezetes az az eset, amikor egy csaló a vállalat vezetőjének hangját utánozva csalt ki 25,6 millió dollárt egy gyanútlan alkalmazottól, ami világosan rámutat arra, hogy milyen súlyos következményei lehetnek egy ilyen kifinomult eszköz illetéktelen kezekbe kerülésének. Éppen ezek miatt a súlyos etikai és biztonsági aggályok miatt döntött úgy az OpenAI, hogy a széles körű, nyilvános bevezetés előtt alapos kockázatelemzést végez, biztosítva, hogy a technológia alkalmazása ne vezessen visszaélésekhez és a digitális bizalom további eróziójához.

Miért fontos?

Emlékszel azokra a deepfake robocall hívásokra, amelyek Bident utánozva arra buzdítottak, hogy ne szavazzanak New Hampshire-ben? Vagy a csalóra, aki a munkavállaló felettesének kiadva magát 25,6 millió dollárt csalt ki? ---

Eredeti forrás megtekintése (angol) →
Kapcsolódó hírek
NYT-újságíró AI segítségével, ingatlanügynök nélkül adta el házát
most
Az Anthropic megerősítette, hogy a nagyteljesítményű Mythos modell hamarosan elérhető lesz a nyilvánosság számára
most
Az ElevenLabs Music v2 lehetővé teszi a szám közbeni műfajváltást és a gyors repet
most
Tudj meg többet
OpenAI Sora: AI videógenerálás – minden, amit tudni kell
OpenAI: A ChatGPT mögötti cég – történet, termékek, jövőkép