LEVELEK
Hangalapú alkalmazások építése egyszerűbb, mint gondolná
A hangalapú AI, amellyel beszélgetni lehet, rohamtempóban fejlődik, mégis a legtöbben még nem mérik fel, mennyire elterjedtté válnak majd a hangalapú felhasználói felületek (UI). Ma billentyűzetet és egeret használunk a legtöbb asztali és webes alkalmazás vezérléséhez. A jövőben reményeim szerint képesek leszünk ezen alkalmazások közül sokkal verbálisan is kommunikálni az irányításuk érdekében. Különösen izgatott vagyok a Vocal Bridge munkája miatt, ahol Ashwyn Sharma vezérigazgató olyan fejlesztői eszközök létrehozásán dolgozik, amelyek ezt lehetővé teszik.
Minden jelentős UI-váltás számos új alkalmazást hívott életre, és lehetővé tette a meglévők fejlesztését. Az egér lehetővé tette a "point-and-click" módszert. Az érintés és a csúsztatás új mobilalkalmazás-kategóriákat teremtett. Egészen a közelmúltig a hangalapú UI-k magas hibaaránnyal és/vagy késleltetéssel (latency) küzdöttek, de ahogy egyre megbízhatóbbá válnak, rengeteg új alkalmazási területet nyitnak meg.
Például készítettem egy egyszerű matekkvíz-alkalmazást a lányomnak. Élvezte a billentyűzet használatát a játék során (ami egy aranyos macskás grafikát mutat a helyes válaszoknál, mert imádja a macskákat! 🐱). Egy hangalapú UI hozzáadása – így barátságos módon, szóban kérdezi őt, ő pedig szóban válaszolhat – megszünteti a nehézségeket és megváltoztatja az élmény érzetét.
Az emberek túlnyomó többsége sokkal könnyebbnek találja a beszédet és a hallgatást, mint az írást és az olvasást. Mivel a legtöbb fejlesztő magasan képzett az írás-olvasás terén (ahogy a The Batch olvasói is), könnyű elfelejteni, mennyire nehéznek találják sokan az írást. Valóban, a felnőttek között felnövő gyerekek automatikusan megtanulnak beszélni és figyelni, de hacsak nem tanítják őket kifejezetten, nem tanulnak meg írni vagy olvasni. Az elmúlt évtizedek sci-fi filmjei, mint például a Star Trek, gyakran képzelték el, hogy az emberek beszélgetnek a számítógépekkel ahelyett, hogy gépelnének nekik. Ez a jövőkép méltó arra, hogy megvalósítsuk!
Írtam már a késleltetés (latency) és az intelligencia közötti kompromisszumról. A fő probléma az, hogy bár a "voice-in-voice-out" modellek alacsony késleltetésűek (ami fontos a verbális kommunikációhoz), nehéz őket irányítani, és alacsony a megbízhatóságuk/intelligenciájuk. Ezzel szemben egy Beszéd-szöveg → LLM/Agentic AI → Szöveg-beszéd folyamat nagy megbízhatóságot ad, de túlzott késleltetést okoz. A Vocal Bridge egy egyedi architektúrát valósított meg, amely egy "foreground" ágenst használ a felhasználóval való valós idejű beszélgetéshez – biztosítva az alacsony késleltetést –, és egy "background" ágenst a komplex munkafolyamatok, érvelés, korlátok (guardrails) alkalmazása és eszközhívások kezeléséhez – biztosítva a magas intelligenciát.
Nem várom, hogy a hangalapú UI-k teljesen felváltsák a régebbi felületeket. Ehelyett kiegészítik majd azokat, ahogy az egér kiegészíti a billentyűzetet. Bizonyos helyzetekben, például amikor mások közvetlen közelében dolgozunk, a felhasználók szívesebben gépelnek majd, mint beszélnek. De a hangalapú UI-kban rejlő lehetőség messze túlmutat a jelenleg domináns felhasználási módokon, mint a telefonos ügyfélszolgálatok automatizálása vagy a gépelés alternatívája. A matekkvíz-alkalmazásomban a program képes beszélni, és a képernyőn megjelenő kérdéseket és animációkat is frissíteni a hangalapú (vagy gépelt) bemenetekre reagálva. Ez a multimodális vizuális+hang interakció sokkal gazdagabb felhasználói élményt hoz létre, mint a csak hangalapú interakciók, amelyekre sok hang-AI cég fókuszált. A működés egyik kulcsa egy háttér-ágens hurok, amely kétirányúan képes bemenetet fogadni az UI-tól, valamint eszközöket hívni az UI frissítéséhez.
Hangalapú UI-t építeni valószínűleg egyszerűbb, mint gondolná. A matekkvíz-alkalmazásom korábbi, nem hangalapú verziójából kiindulva, a Claude Code használatával kevesebb mint egy órámba telt a hangfunkciók hozzáadása. A DeepLearning.AI és az AI Fund által nemrégiben rendezett hackathonon a fejlesztők a Vocal Bridge segítségével hangvezérelt alkalmazásokat építettek, többek között klinikai vizsgálati keresőt rákbetegeknek, párbeszédes portfólió-tanácsadót és interaktív hangrétegeket meglévő szövegalapú ágensekhez. El voltam ragadtatva a kreativitástól, amelyet ez az új UI lehetővé tesz.
A hangalapú UI az AI alkalmazások egyik fontos építőköve lesz. A világ fejlesztőinek csak egy elenyésző töredéke készített valaha hangalapú alkalmazást, így ez termékeny talaj az építéshez. Ha szeretné kipróbálni a hangfunkciók hozzáadását egy alkalmazáshoz, próbálja ki ingyen a Vocal Bridge-et.
- A Vocal Bridge egyedi duális ágens architektúrát használ a késleltetés és az intelligencia közötti ellentmondás feloldására.
- Egy "foreground" ágens kezeli a valós idejű felhasználói beszélgetést az alacsony késleltetés és az azonnali válasz érdekében.
- Egy "background" ágens irányítja a komplex érvelést, a biztonsági korlátokat és az eszközhívásokat a kiváló minőségű műveletek biztosításához.
- A fejlesztők multimodális élményeket hozhatnak létre, ahol a hangbemenetek kétirányúan frissítik a vizuális UI elemeket.
- Olyan eszközökkel, mint a Claude Code és a Vocal Bridge, a fejlesztők kevesebb mint egy óra alatt adhatnak hangfunkciókat a meglévő alkalmazásokhoz.
- A közelmúltbeli hackathon projektek között hangvezérelt klinikai vizsgálat-párosítók és párbeszédes portfólió-tanácsadók is szerepeltek.
Miért fontos?
Minden jelentős UI-váltás számos új alkalmazást hívott életre, és lehetővé tette a meglévők fejlesztését. Az egér lehetővé tette a "point-and-click" módszert. Az érintés és a csúsztatás új mobilalkalmazás-kategóriákat teremtett. Egészen a közelmúltig a hangalapú UI-k magas hibaaránnyal és/vagy késleltetéssel küzdöttek, de ahogy egyre megbízhatóbbá válnak, rengeteg új alkalmazási területet nyitnak meg. ---