Az OpenAI bemutatta a Voice Engine-t a hangok audio-mintákból történő replikálására

2026. május 24. · MI Történik? · 2 perc olvasás

Az OpenAI nemrégiben rántotta le a leplet legújabb fejlesztéséről, a Voice Engine technológiáról, amely alapjaiban írhatja át az audiotartalmak létrehozásának és manipulálásának lehetőségeit. Az új AI-modell lényege, hogy egy mindössze 15 másodperces hangminta alapján képes pontosan lemásolni bárkinek a hangját, megőrizve az eredeti beszélő egyedi stílusjegyeit és érzelmi tónusát. A technológia különlegessége, hogy a replikált hangot képes bármilyen idegen nyelven megszólaltatni, miközben az eredeti beszélő jellegzetességei megmaradnak. Bár a fejlesztés lenyűgöző képességekkel bír, az OpenAI egyelőre szigorúan titokban tartja a Voice Engine-t, és csak korlátozott keretek között teszteli, mivel a technológia által hordozott visszaélési lehetőségek és etikai kockázatok rendkívül magasak.

A Voice Engine gyakorlati alkalmazása számos területen nyithat új kapukat a tartalomkészítők és vállalatok számára. Például a HeyGenhez hasonló eszközökkel kombinálva lehetővé válik a videós tartalmak zökkenőmentes lefordítása más nyelvekre úgy, hogy a beszélő hangja természetes maradjon, ezzel lebontva a nyelvi akadályokat a globális kommunikációban. A marketing szakemberek számára a technológia lehetővé teszi, hogy egyetlen rögzített anyagból több száz különböző hangú és stílusú hirdetést teszteljenek, jelentősen optimalizálva ezzel a kampányok hatékonyságát. Ezenfelül az olyan AI-generált audiotartalmak, mint amilyeneket a Perplexity Discover Daily is alkalmaz, új szintre emelhetik a személyre szabott híradások és podcastok élményét, ahol az AI képes a felhasználó által kedvelt stílusban, akár több nyelven is prezentálni az információkat.

Ugyanakkor az éremnek van egy sötétebb oldala is, hiszen a technológia demokratizálódása komoly veszélyeket rejt magában a kiberbiztonság és az egyéni adatok védelme terén. A visszaélések kockázata már most is valós, gondoljunk csak a korábbi deepfake robocall hívásokra, ahol a technológiát rosszindulatú célokra, például politikai befolyásolásra vagy éppen pénzügyi csalásokra használták. Emlékezetes az az eset, amikor egy csaló a vállalat vezetőjének hangját utánozva csalt ki 25,6 millió dollárt egy gyanútlan alkalmazottól, ami világosan rámutat arra, hogy milyen súlyos következményei lehetnek egy ilyen kifinomult eszköz illetéktelen kezekbe kerülésének. Éppen ezek miatt a súlyos etikai és biztonsági aggályok miatt döntött úgy az OpenAI, hogy a széles körű, nyilvános bevezetés előtt alapos kockázatelemzést végez, biztosítva, hogy a technológia alkalmazása ne vezessen visszaélésekhez és a digitális bizalom további eróziójához.

Tartalom lefordítása más nyelvekre olyan eszközökkel, mint a HeyGen.
Marketing- és audiohirdetések több száz verziójának tesztelése különböző hangokkal.
AI-generált podcastok és audiotartalmak működtetése, mint például a Perplexity Discover Daily műsora.
Lehetséges visszaélés deepfake automata hívásokban (robocalls) vagy pénzügyi csalásokban.

Miért fontos?

Emlékszel azokra a deepfake robocall hívásokra, amelyek Bident utánozva arra buzdítottak, hogy ne szavazzanak New Hampshire-ben? Vagy a csalóra, aki a munkavállaló felettesének kiadva magát 25,6 millió dollárt csalt ki? ---

Eredeti forrás megtekintése (angol) →

Kapcsolódó hírek

GPT-5.6 prompting útmutató és új, képernyő-tudatos AI frissítések

7 órája

A HP mesterséges intelligenciája előre jelzi és elhárítja a hardverhibákat

10 órája

AI-ügynökök tanítása szakértői korrekciók alapján

10 órája

Tudj meg többet

OpenAI Sora: AI videógenerálás – minden, amit tudni kell

OpenAI: A ChatGPT mögötti cég – történet, termékek, jövőkép