Hangvezérelt Alkalmazások Építése: Könnyebb, Mint Gondolná
Kedves Barátaim,
A hangalapú AI, amellyel beszélhetünk, gyorsan fejlődik, mégis a legtöbb ember még mindig nem értékeli, mennyire áthatóvá válnak a hangalapú felhasználói felületek (UI). Ma billentyűzetet és egeret használunk a legtöbb asztali és webes alkalmazás vezérlésére. A jövőben remélem, hogy számos ilyen alkalmazással tudunk majd beszélgetni, hogy irányítsuk őket. Különösen izgatott vagyok a Vocal Bridge (egy AI Fund portfólió cég) munkája miatt, ahol Ashwyn Sharma vezérigazgató élen jár a fejlesztői eszközök biztosításában, amelyek ezt lehetővé teszik.
Minden jelentős UI változás számos új alkalmazást hozott létre, és lehetővé tette a meglévők frissítését is. Az egér tette lehetővé a kattintásos vezérlést. Az érintés és a gesztusok új típusú mobil alkalmazásokat tettek lehetővé. Egészen a közelmúltig a hangalapú UI-k magas hibaráta és/vagy latency problémákkal küzdöttek, de ahogy megbízhatóbbá válnak, számos új alkalmazást fognak megnyitni.
Például építettem egy egyszerű matematikai kvíz alkalmazást a lányomnak. Élvezettel használta a billentyűzetet a játékhoz (amely aranyos macskagrafikát mutat a helyes válaszoknál, mert imádja a macskákat! 🐱). Egy hangalapú UI hozzáadása, amely barátságos módon szóban kérdezi őt, és ő is szóban válaszolhat, eltávolítja a súrlódást és megváltoztatja az élmény érzetét.
Az emberek túlnyomó többsége sokkal könnyebbnek találja a beszédet és a hallgatást, mint az írást és az olvasást. Mivel a legtöbb fejlesztő rendkívül művelt (csakúgy, mint a The Batch olvasói), könnyű elfelejteni, milyen nehéznek találja sok ember az írást. Valójában azok a gyermekek, akik felnőttekkel töltenek időt, automatikusan megtanulnak beszélni és hallgatni, de ha nem tanítják meg nekik explicit módon, akkor nem fognak megtanulni olvasni vagy írni. Az elmúlt évtizedek sci-fi filmjei, mint például a Star Trek, gyakran azt képzelik, hogy az emberek számítógépekkel beszélnek, ahelyett, hogy gépelnének nekik. Ez egy olyan jövőkép, amelyért érdemes dolgozni!
Írtam már a latency és az intelligencia közötti kompromisszumról. A fő probléma az, hogy bár a hang-bemenet/hang-kimenet modellek alacsony latency-vel rendelkeznek (ami fontos a verbális kommunikációhoz), nehezen vezérelhetők és alacsony megbízhatósággal/intelligenciával küzdenek. Összehasonlításképpen, egy Speech-to-text → LLM/Agentic AI → Text-to-speech pipeline nagy megbízhatóságot biztosít, de túlzott latency-t vezet be. A Vocal Bridge egy egyedi architektúrát valósított meg, amely egy foreground ügynököt használ a felhasználóval valós időben történő beszélgetésre – ezzel biztosítva az alacsony latency-t – és egy background ügynököt a komplex agentic workflow kezelésére, érvelésre, guardrail-ek alkalmazására, eszközök meghívására, és minden másra, ami szükséges a kiváló minőségű válaszok és műveletek előállításához – ezzel biztosítva a magas intelligenciát.
Nem számítok arra, hogy a hangalapú UI-k teljesen felváltják a régebbi interfészeket. Ehelyett kiegészítik majd őket, ahogyan az egér kiegészíti a billentyűzetet. Bizonyos kontextusokban, például amikor mások közelében dolgoznak, a felhasználók inkább gépelnek, mintsem beszélnek. De a hangalapú UI-k potenciálja jóval túlmutat a jelenleg domináns használati eseteken, mint például a call centerek automatizálása és a gépelés alternatívájának biztosítása. A matematikai kvíz alkalmazásomban az alkalmazás beszélni is tud, és frissíti a képernyőn megjelenő kérdéseket és animációkat a szóbeli (vagy gépelt) bemenetekre válaszul. Ez a multi-modális vizuális+hang interakció sokkal gazdagabb felhasználói élményt hoz létre, mint a csak hangalapú interakciók, amelyekre sok hangalapú AI cég összpontosított. Az egyik kulcs a működéshez egy background-ügynök loop, amely kétirányúan képes bemenetet fogadni az UI-ból, valamint eszközöket hívni az UI frissítéséhez.
A hangalapú UI-k építése valószínűleg könnyebb, mint gondolja. Egy korábbi, nem hangalapú matematikai kvíz alkalmazásomból kiindulva, a Claude Code használatával, kevesebb mint egy óra alatt hozzáadtam a hang képességeket. Egy közelmúltbeli hackathonon, amelyet a DeepLearning.AI és az AI Fund szervezett, a fejlesztők hangvezérelt alkalmazásokat építettek a Vocal Bridge-dzsel, beleértve rákos betegek klinikai vizsgálati egyeztetőjét, egy beszélgető portfólió tanácsadót és interaktív hangrétegeket a meglévő szöveges ügynökökhöz. Örömmel töltött el az a kreativitás, amelyet ez az új UI lehetővé tesz.
Folytassátok az építést!
Andrew
Miért fontos?
A hangalapú felhasználói felületek (UI) fontos építőkövei lesznek az AI alkalmazásoknak. A világ fejlesztőinek csak egy elenyésző része készített valaha hangalkalmazást, így ez termékeny talaj az építkezéshez. Ha szeretné kipróbálni a hang hozzáadását egy alkalmazáshoz, próbálja ki ingyenesen a Vocal Bridge-t itt.