MI Történik?

Mesterséges intelligencia hírek magyarul — naponta frissülve

← Vissza a főoldalra

Hangalapú alkalmazások építése egyszerűbb, mint gondolná

A hangalapú AI, amellyel beszélgetni lehet, rohamtempóban fejlődik, mégis a legtöbben még nem mérik fel, mennyire elterjedtté válnak majd a hangalapú felhasználói felületek (UI). Ma billentyűzetet és egeret használunk a legtöbb asztali és webes alkalmazás vezérléséhez. A jövőben reményeim szerint képesek leszünk ezen alkalmazások közül sokkal verbálisan is kommunikálni az irányításuk érdekében. Különösen izgatott vagyok a Vocal Bridge munkája miatt, ahol Ashwyn Sharma vezérigazgató olyan fejlesztői eszközök létrehozásán dolgozik, amelyek ezt lehetővé teszik. Minden jelentős UI-váltás számos új alkalmazást hívott életre, és lehetővé tette a meglévők fejlesztését. Az egér lehetővé tette a "point-and-click" módszert. Az érintés és a csúsztatás új mobilalkalmazás-kategóriákat teremtett. Egészen a közelmúltig a hangalapú UI-k magas hibaaránnyal és/vagy késleltetéssel (latency) küzdöttek, de ahogy egyre megbízhatóbbá válnak, rengeteg új alkalmazási területet nyitnak meg. Például készítettem egy egyszerű matekkvíz-alkalmazást a lányomnak. Élvezte a billentyűzet használatát a játék során (ami egy aranyos macskás grafikát mutat a helyes válaszoknál, mert imádja a macskákat! 🐱). Egy hangalapú UI hozzáadása – így barátságos módon, szóban kérdezi őt, ő pedig szóban válaszolhat – megszünteti a nehézségeket és megváltoztatja az élmény érzetét. Az emberek túlnyomó többsége sokkal könnyebbnek találja a beszédet és a hallgatást, mint az írást és az olvasást. Mivel a legtöbb fejlesztő magasan képzett az írás-olvasás terén (ahogy a The Batch olvasói is), könnyű elfelejteni, mennyire nehéznek találják sokan az írást. Valóban, a felnőttek között felnövő gyerekek automatikusan megtanulnak beszélni és figyelni, de hacsak nem tanítják őket kifejezetten, nem tanulnak meg írni vagy olvasni. Az elmúlt évtizedek sci-fi filmjei, mint például a Star Trek, gyakran képzelték el, hogy az emberek beszélgetnek a számítógépekkel ahelyett, hogy gépelnének nekik. Ez a jövőkép méltó arra, hogy megvalósítsuk! Írtam már a késleltetés (latency) és az intelligencia közötti kompromisszumról. A fő probléma az, hogy bár a "voice-in-voice-out" modellek alacsony késleltetésűek (ami fontos a verbális kommunikációhoz), nehéz őket irányítani, és alacsony a megbízhatóságuk/intelligenciájuk. Ezzel szemben egy Beszéd-szöveg → LLM/Agentic AI → Szöveg-beszéd folyamat nagy megbízhatóságot ad, de túlzott késleltetést okoz. A Vocal Bridge egy egyedi architektúrát valósított meg, amely egy "foreground" ágenst használ a felhasználóval való valós idejű beszélgetéshez – biztosítva az alacsony késleltetést –, és egy "background" ágenst a komplex munkafolyamatok, érvelés, korlátok (guardrails) alkalmazása és eszközhívások kezeléséhez – biztosítva a magas intelligenciát. Nem várom, hogy a hangalapú UI-k teljesen felváltsák a régebbi felületeket. Ehelyett kiegészítik majd azokat, ahogy az egér kiegészíti a billentyűzetet. Bizonyos helyzetekben, például amikor mások közvetlen közelében dolgozunk, a felhasználók szívesebben gépelnek majd, mint beszélnek. De a hangalapú UI-kban rejlő lehetőség messze túlmutat a jelenleg domináns felhasználási módokon, mint a telefonos ügyfélszolgálatok automatizálása vagy a gépelés alternatívája. A matekkvíz-alkalmazásomban a program képes beszélni, és a képernyőn megjelenő kérdéseket és animációkat is frissíteni a hangalapú (vagy gépelt) bemenetekre reagálva. Ez a multimodális vizuális+hang interakció sokkal gazdagabb felhasználói élményt hoz létre, mint a csak hangalapú interakciók, amelyekre sok hang-AI cég fókuszált. A működés egyik kulcsa egy háttér-ágens hurok, amely kétirányúan képes bemenetet fogadni az UI-tól, valamint eszközöket hívni az UI frissítéséhez. Hangalapú UI-t építeni valószínűleg egyszerűbb, mint gondolná. A matekkvíz-alkalmazásom korábbi, nem hangalapú verziójából kiindulva, a Claude Code használatával kevesebb mint egy órámba telt a hangfunkciók hozzáadása. A DeepLearning.AI és az AI Fund által nemrégiben rendezett hackathonon a fejlesztők a Vocal Bridge segítségével hangvezérelt alkalmazásokat építettek, többek között klinikai vizsgálati keresőt rákbetegeknek, párbeszédes portfólió-tanácsadót és interaktív hangrétegeket meglévő szövegalapú ágensekhez. El voltam ragadtatva a kreativitástól, amelyet ez az új UI lehetővé tesz. A hangalapú UI az AI alkalmazások egyik fontos építőköve lesz. A világ fejlesztőinek csak egy elenyésző töredéke készített valaha hangalapú alkalmazást, így ez termékeny talaj az építéshez. Ha szeretné kipróbálni a hangfunkciók hozzáadását egy alkalmazáshoz, próbálja ki ingyen a Vocal Bridge-et.
Miért fontos?

Minden jelentős UI-váltás számos új alkalmazást hívott életre, és lehetővé tette a meglévők fejlesztését. Az egér lehetővé tette a "point-and-click" módszert. Az érintés és a csúsztatás új mobilalkalmazás-kategóriákat teremtett. Egészen a közelmúltig a hangalapú UI-k magas hibaaránnyal és/vagy késleltetéssel küzdöttek, de ahogy egyre megbízhatóbbá válnak, rengeteg új alkalmazási területet nyitnak meg. ---

Eredeti forrás megtekintése (angol) →