話音作為聯(lián)結(jié)全球80億人口的紐帶,承載著人與人之間最基本、最可靠的溝通需求。在科技發(fā)展日新月異的當下,各行各業(yè)迎來前所未有的革新契機。特別是AI技術(shù)的蓬勃興起,推動話音業(yè)務(wù)從傳統(tǒng)音視頻向多模態(tài)、交互式通信的形態(tài)轉(zhuǎn)變,極大地促進了通話產(chǎn)業(yè)的繁榮發(fā)展,開辟了全新的增長點。借助AI技術(shù)為新通話賦能,構(gòu)建智能體通話能力,重塑用戶通話體驗,正是打造智能業(yè)務(wù)新入口的黃金時機。
AI給通信產(chǎn)業(yè)帶來的變化
2022年,ChatGPT橫空出世,自此各種大模型相繼亮相,人工智能進入蓬勃發(fā)展階段,并逐步向多模態(tài)、智能體等方向發(fā)展。在通話領(lǐng)域,文本、圖像、語音等多種模態(tài)數(shù)據(jù)處理技術(shù)日趨成熟,通信內(nèi)容從傳統(tǒng)音視頻向全媒體、智能化演進。與此同時,IMS DC(數(shù)據(jù)通道)的標準制定工作也在持續(xù)推進。2024年6月,GSMA正式發(fā)布PRD TS.66 IMS Data Channel API Specification,為構(gòu)建全球統(tǒng)一的新通話應(yīng)用生態(tài)提供了標準依據(jù);3GPP R18標準正式凍結(jié),為新通話商用的全面提速奠定了標準基礎(chǔ)。隨著DC標準的逐步演進,未來交互式通信將進一步降低對終端的依賴,從而促進運營商基于DC的交互式業(yè)務(wù)的落地。人工智能結(jié)合AIGC(生成式人工智能)、Agent、LLM(大型語言模型)、MLLM(多模態(tài)大語言模型)等技術(shù),可實時感知用戶意圖,為用戶提供交互式、沉浸式的通話體驗。
“AIGC+語音驅(qū)動數(shù)字人”為用戶提供個性化數(shù)字人形象,人人都能擁有自己的數(shù)字分身。AIGC技術(shù)已被廣泛應(yīng)用于各個領(lǐng)域,在實時通信領(lǐng)域被用于生成個性化數(shù)字人形象。通過圖生圖、圖生視頻、文生圖和文生視頻技術(shù),降低個性化素材創(chuàng)作門檻,人人都可以擁有自己的數(shù)字分身。語音驅(qū)動數(shù)字人技術(shù)基于用戶的語音輸入,實時驅(qū)動數(shù)字人形象生成與語音同步的口型、表情和動作,讓數(shù)字人更具生命力。
“AI Agent+LLM/MLLM”為數(shù)字助理裝上“超級大腦”,為用戶提供更加沉浸、智能、高效的體驗。LLM/MLLM基于海量數(shù)據(jù)進行訓練,具有數(shù)十億甚至數(shù)千億的模型參數(shù),具備強大的理解、表達和泛化能力?;贚LM構(gòu)建的AI Agent已在多個領(lǐng)域展現(xiàn)出巨大潛力,可以更準確地理解用戶意圖、情感以及上下文信息,與用戶進行更自然、流暢的交流。基于MLLM構(gòu)建的AI Agent不僅能夠處理文本,還能理解和生成圖像、音頻、視頻等多種模態(tài)的數(shù)據(jù),增強數(shù)字助理的理解能力,為用戶提供更豐富的交互體驗。結(jié)合RAG(檢索增強生成)和工具使用能力,增強AI Agent的知識獲取與記憶能力,從而實現(xiàn)個性化的用戶數(shù)字助理。
AI賦能新通話,智能體變革通話體驗
通過AI賦能網(wǎng)絡(luò),新通話可實現(xiàn)智能體通信,為用戶提供更加高效便捷的通話體驗。為實現(xiàn)這一目標,需要在已有新通話基礎(chǔ)架構(gòu)上進行能力增強,引入通話智能面,實現(xiàn)多模態(tài)交互及第三方模型對接。
新通話智能體通信架構(gòu)如圖1所示。新通話能力平臺基于業(yè)務(wù)AS(應(yīng)用服務(wù)器)指示向新通話媒體面發(fā)起音視頻或DC操作,如拉起單向視頻實現(xiàn)網(wǎng)絡(luò)側(cè)點亮屏幕業(yè)務(wù);同時,進行新通話智能面設(shè)備發(fā)現(xiàn),并指示智能面完成語義交互。
新通話智能體通信架構(gòu)
新通話媒體面可接受來自新通話能力平臺的指示控制,進行媒體流復(fù)制、收號、字幕提示、放音等基礎(chǔ)音視頻能力操作,以及字幕流合成、虛擬背景替換、虛擬頭像替換、媒體元素合成等相關(guān)媒體處理。同時,新通話媒體面負責將實時媒體流復(fù)制給智能面,完成進一步AI語義交互處理,并確保媒體流發(fā)送給終端的實時性不受影響。
新通話智能面可接收新通話媒體面復(fù)制的媒體流,提供通話語義智能交互及分發(fā)相關(guān)能力。它支持針對用戶的意圖識別、多模態(tài)(音頻、文本、圖片、視頻)語義交互;同時,通話智能體平臺基于用戶意圖進行靈活分發(fā)引流,可分發(fā)至內(nèi)置的垂域語義交互模型或外置的大模型智能體、行業(yè)智能體進行復(fù)雜任務(wù)閉環(huán)。一方面,智能面可提供內(nèi)置的工具調(diào)用、RAG知識庫、用戶偏好、長短期記憶等輔助能力。另一方面,智能面需構(gòu)建AI安全能力,如安全圍欄、AI標識、隱私保護等,以更好地應(yīng)對網(wǎng)絡(luò)攻擊和數(shù)據(jù)泄露。
新通話智能體架構(gòu)具備以下三方面能力。
一是多模態(tài)交互?!癆IGC+大模型+算力”驅(qū)動音頻、視頻、文本、圖片等多模態(tài)的語義理解、交互和信息流轉(zhuǎn)換,讓每一位用戶都能擁有一個數(shù)字人形象,讓每一個數(shù)字形象都可以通過AI實時驅(qū)動,提升用戶的互動體驗。
二是NaaS開放使能。新通話三通道能力基于企業(yè)接入網(wǎng)關(guān),按應(yīng)用能力區(qū)分IaaS、PaaS、SaaS等方式分層開放標準API,使能開發(fā)者和行業(yè)ISV。新通話被設(shè)計為一個開放的業(yè)務(wù)使能平臺,南向匯聚音視頻媒體處理、實時數(shù)據(jù)交互等網(wǎng)絡(luò)能力;北向?qū)崿F(xiàn)能力的聚合封裝與開放共享,使能各類行業(yè)業(yè)務(wù),調(diào)用聚合的新通話能力層,快速完成業(yè)務(wù)創(chuàng)新,繁榮行業(yè)應(yīng)用生態(tài),打開更廣闊的市場空間。
三是使能外部大模型、工具?;谟脩粢鈭D理解,自動調(diào)用垂域最優(yōu)權(quán)威模型、工具,從而提供最佳解決方案,為用戶提供最優(yōu)的通話體驗。例如,當涉及醫(yī)療領(lǐng)域問答時,自動調(diào)用業(yè)界權(quán)威醫(yī)療AI模型提供專業(yè)的醫(yī)療對話。
在未來,每個人都將擁有一個專屬的通話智能體,用戶可以自定義智能體形象并通過語音實時驅(qū)動進行互動。一方面,智能體具備代答能力,實現(xiàn)防漏接、防騷擾、防欺詐;另一方面,智能體可提供伴聊、陪聊能力,并且可以識別用戶意圖進行跨應(yīng)用編排,例如外賣訂購、酒店預(yù)定等,在通話中閉環(huán)業(yè)務(wù),進一步提升用戶體驗,實現(xiàn)智能體走入千家萬戶、賦能千行百業(yè)。
智能體重塑運營商通話業(yè)務(wù)入口
AI引發(fā)的交互方式變革,給整個移動通信產(chǎn)業(yè)帶來了前所未有的發(fā)展機遇。領(lǐng)先運營商已經(jīng)將AI作為發(fā)展戰(zhàn)略,通過傳統(tǒng)通信網(wǎng)絡(luò)基礎(chǔ)設(shè)施、業(yè)務(wù)與AI技術(shù)結(jié)合,促進AI技術(shù)深入千行百業(yè),助力電信運營商科技轉(zhuǎn)型。
例如,中國移動發(fā)布“AI+”戰(zhàn)略,基于“九天”大模型,打造從基礎(chǔ)設(shè)施到核心能力的開放AI服務(wù),以科技創(chuàng)新全面推進產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型,推動AI深度賦能數(shù)實經(jīng)濟發(fā)展,為新質(zhì)生產(chǎn)力筑牢基礎(chǔ);韓國電信運營商SKT發(fā)布“AI金字塔戰(zhàn)略”,圍繞AI基礎(chǔ)設(shè)施、AI轉(zhuǎn)型和AI服務(wù)三個關(guān)鍵領(lǐng)域加速創(chuàng)新,拓展已有數(shù)字化服務(wù)能力,加速AI戰(zhàn)略轉(zhuǎn)型;韓國電信運營商LG U+基于“Growth Leading AX Company”(增長領(lǐng)先型AX公司)戰(zhàn)略,成立“AI Agent特別工作組”,與終端廠商深度合作并發(fā)布AI通話助手“ixi-O”,實現(xiàn)AI代答、紀要、翻譯、“釣魚”警告等能力,增強用戶體驗,加速AX戰(zhàn)略轉(zhuǎn)型。
話音作為運營商的基礎(chǔ)業(yè)務(wù),擁有龐大的用戶基數(shù),基于AI的通話業(yè)務(wù)入口,可作為運營商實現(xiàn)AI戰(zhàn)略落地的有力抓手。據(jù)華為MI數(shù)據(jù)統(tǒng)計,中國有17.5億移動電話用戶,每月平均有200多分鐘通話時長,整體每月通話時長超過四千億分鐘。基于如此龐大的通話流量,如何發(fā)揮其價值?當前企業(yè)客服的APP線上業(yè)務(wù)咨詢已經(jīng)非常普遍,但數(shù)據(jù)顯示,企業(yè)客服熱線移動電話客服占比達60%~80%,例如運營商客服熱線占比60%,某移動支付電話客服占比更是達到了80%,電話熱線仍然是企業(yè)客服的主要入口。
由此可見,運營商的通話入口具備成為AI入口的流量優(yōu)勢。同時,運營商具備APP免安裝、終端普惠和實時體驗的天然優(yōu)勢,獨有的公信力和社會責任可提供AI監(jiān)管、隱私看護等方面的安全認證。在OTT、終端廠商、運營商發(fā)力搶占AI入口的當下,運營商基于“原生撥號盤”打造AI入口,有能力做到“三分天下有其一”。
產(chǎn)業(yè)攜手,擁抱AI,合作共贏
AI的飛速發(fā)展將為通信產(chǎn)業(yè)帶來顛覆式變革,從傳統(tǒng)的音視頻通話到多模態(tài)通信、智能體通信、沉浸式通信,AI將進一步改善通話體驗、提升通話效率,以實現(xiàn)科技助老助殘,踐行“科技向善”理念。在AI加持下,新通話將進一步打開話音產(chǎn)業(yè)發(fā)展空間,這需要產(chǎn)業(yè)上下游伙伴(包括終端和芯片廠商、標準組織、三方行業(yè)、設(shè)備商、運營商等)攜手共建,打通發(fā)展斷點,共建通話新生態(tài),推進新通話產(chǎn)業(yè)繁榮發(fā)展。
-
通信
+關(guān)注
關(guān)注
18文章
6039瀏覽量
136116 -
AI
+關(guān)注
關(guān)注
87文章
31054瀏覽量
269406
原文標題:AI賦能新通話 構(gòu)筑智能業(yè)務(wù)入口
文章出處:【微信號:hwCoreNetwork,微信公眾號:華為云核心網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論