Új Sesame AI hang-startup célozza meg az „uncanny valley” átlépését
Új fejezetet nyithat az AI-alapú hangtechnológia fejlődésében az Oculus társalapítója, Brendan Iribe által indított legújabb startup, a Sesame. A vállalat a napokban tette közzé legújabb beszédmodelljének demóját, amelynek kifejezett célja az úgynevezett uncanny valley, vagyis a mesterséges hangok keltette hátborzongató völgy hatásának végleges átlépése. A Sesame által fejlesztett rendszer nem csupán gépiesen ismétli a szavakat, hanem valódi érzelmeket és természetes beszédmintákat felvonultatva képes kommunikálni a felhasználókkal, ami közelebb hozza az ember és gép közötti interakciót a valódi társalgáshoz.
A startup által bemutatott Conversational Speech Model technológiai háttere szakít a hagyományos, mondatról mondatra működő korábbi megközelítésekkel. A rendszer valós időben elemzi a teljes beszélgetés kontextusát, így sokkal természetesebb hangválaszokat képes adni, mivel nemcsak az egyes elhangzott mondatokat, hanem a teljes diskurzust figyelembe veszi. Az érzelmi tudatosság integrálásának köszönhetően az AI képes a társalgás aktuális hangulatához és tartalmához igazítani a hangszínét, a tónusát, valamint a beszéd ritmusát is. A korai demófelvételek tanúsága szerint a technológia kiválóan kezeli a beszédtempó dinamikus változtatásait, a természetes hatású szünetek beiktatását, ráadásul akkor sem veszíti el a beszélgetés fonalát, ha a felhasználó közbevág vagy félbeszakítja a gép mondandóját.
A Sesame víziója azonban nem merül ki egy szoftveres megoldásban, ugyanis a cég már gőzerővel fejleszti a saját AI-szemüvegét is. Ez a hordható eszköz közvetlenül integrálja majd a most bemutatott forradalmi hangtechnológiát. A fejlesztők célja egy olyan, mindig elérhető AI-társ biztosítása, amely képes folyamatosan megfigyelni a körülöttünk lévő világot, és ennek alapján valós időben nyújt azonnali segítséget a felhasználónak a mindennapok során.
Miután a fogyasztók éveket töltöttek el az eddigi, sokszor átlag alatti képességekkel rendelkező hangasszisztensek társaságában, most egy igazi szemfelnyitó változás előtt állnak, ahogy a hangtechnológia hatalmas frissítést kap 2025-ben. Az elmúlt időszak eseményei, valamint a Hume, az Alexa és most a Sesame legújabb lépései egyértelmű bepillantást engednek abba, hogy a közeljövőben milyen emberibb, kontextus-tudatosabb rendszerek fogják átvenni a helyet a technológiai piacon.
- A Sesame társalgási beszédmodellje (Conversational Speech Model) természetes hangválaszokat ad azáltal, hogy valós időben veszi figyelembe a beszélgetés kontextusát, nem csak az egyes mondatokat.
- A rendszer érzelmi tudatosságot is magában foglal, lehetővé téve az AI számára, hogy a beszélgetés hangulata és tartalma alapján alakítsa a tónusát és a ritmusát.
- A korai demók olyan képességeket mutatnak be, mint a beszédtempó igazítása, a természetes szünetek beiktatása és a társalgási szál fenntartása félbeszakítás esetén.
- A Sesame olyan AI-szemüvegeket is fejleszt, amelyek integrálják a hangtechnológiáját, egy mindig elérhető AI-társat kínálva a világ megfigyelésére és a valós idejű segítségnyújtásra.
Miután éveket töltöttek átlag alatti hangasszisztensekkel, a fogyasztókra szemfelnyitó változás vár, ahogy a hangtechnológia hatalmas frissítést kap 2025-ben. A Hume, az Alexa és most a Sesame lépéseivel az elmúlt hét bepillantást engedett a közelgő emberibb, kontextus-tudatosabb rendszerekbe. ---