Az OpenAI érvelési képességének fejlesztése hangügynökök számára
Az OpenAI bemutatta a GPT-Realtime-2, GPT-Realtime-Translate és GPT-Realtime-Whisper modelleket, amelyek három API hangmodell, és új érvelési, streaming, eszközhasználati, realisztikus és további képességfejlesztéseket hoznak az AI hangügynökök és az élő beszéd számára.
- A Realtime-2 GPT-5 szintű érvelési képességet biztosít az élő beszédhez, egyszerre több eszközt is képes használni, gondolkodás közben beszél, és jobb hangszín-szabályozással rendelkezik a valósághűség érdekében.
- A Big Bench Audio teszten a Realtime-2 96,6%-os eredményt ért el elődjének 81,4%-ával szemben, ami 15 pontos ugrást jelent abban, hogy a hang AI milyen jól képes valós időben érvelni.
- Az OpenAI egy élő fordítót is kiadott, amely több mint 70 nyelvet fed le, valamint egy streaming transzkripciós modellt, kiegészítve ezzel egy teljes hangügynök eszközkészletet.
- Az OAI szerint a Zillow, a Priceline és a Deutsche Telekom már építenek a modellekre ingatlan AI ügynökök, hangvezérelt utazási és ügyfélszolgálati megoldások céljára.
Úgy tűnik, hogy az AI hangügynökök körökre osztott korszaka a végéhez közeledik, mivel az OAI új modellje olyan rendszerek felé mozdul el, amelyek jobban képesek érvelni, eszközöket használni és munkafolyamatokat befejezni anélkül, hogy kellemetlen megszakítások kizökkentenék a felhasználókat a természetes áramlásból. Az AI iparág a szöveges ügynökökre fókuszál, de a következő hullámot beszéddel fogjuk irányítani, nem gépeléssel. ---