隨著我國人工智能發(fā)展規(guī)劃的出臺,以及各項關鍵技術的日趨成熟,物聯(lián)網(wǎng)時代逐步成為繼移動互聯(lián)網(wǎng)時代的下一個浪潮,人機交互開啟新一輪的需求革新,從鼠標、鍵盤、觸屏的傳統(tǒng)交互向語音交互演進,社會正在飛速進入智能語音交互時代。
以“語音+內(nèi)容+智能”為切入點,打造自主設計、自主整合、自主運營的一站式語音交互共享平臺,構建可運營、能變現(xiàn)的語音交互生態(tài),賦能多形態(tài)終端產(chǎn)品,打造能聽會說的人機交互體驗,是未來智慧家庭發(fā)展的大趨勢,也是中國移動智慧家庭運營中心推進數(shù)字家庭生態(tài)建設的重點方向。
1 語音交互是智慧家庭生態(tài)布局的關鍵入口
1.1 人機交互需求不斷革新
伴隨著交互場景的拓展,人們逐漸對交互自由度提出了更大需求,語音交互越來越貼近人類的本能表達。語音交互憑借其輸入速度快、場景限制少、技術鏈條發(fā)展成熟等優(yōu)勢,成為智能時代的理想交互途徑,并逐步向交互智能、終端多態(tài)、服務泛在的方向發(fā)展。
1.2 家庭場景服務更加智能
語音交互是將人工智能技術底層產(chǎn)業(yè)化的關鍵,語音助手連接多形態(tài)終端和廣泛業(yè)務,可提供內(nèi)容服務、互聯(lián)網(wǎng)服務,以及場景化智能家居控制等服務,為家庭用戶提供互動娛樂、互動教育、家庭健康、家庭安防等新型產(chǎn)品體驗,其中智能音箱成為首款爆發(fā)單品,并逐步向更多產(chǎn)品形態(tài)延伸。
2 核心技術攻關提升體驗
智能語音交互主要涉及語音識別、語義理解和語音合成等技術。語音識別技術能將語音流轉換為文本,語義理解技術可分析語句的含義、剖析用戶意圖,語音合成技術將解析結果以語音的方式反饋給用戶,從而實現(xiàn)與用戶的智能語音交互。
2.1 語音識別——聽得清
智能語音交互平臺現(xiàn)采用基于Transformer算法的端到端模型,具備識別速度快、識別準確率高的特性。該模型采用基于上下文理解的自注意力機制,提升了語義特征提取能力,解決了傳統(tǒng)模型中聲學模型和語言模型無法聯(lián)合優(yōu)化的問題,并且該算法能更好地利用先進硬件實現(xiàn)并行計算,從而提升運算速度。
2.2 語義理解——聽得懂
平臺采用基于規(guī)則+深度+關鍵詞匹配算法的多算法融合模型理解用戶意圖,規(guī)則算法對于較短文本可實現(xiàn)快速準確的匹配,深度學習算法可對詞表無法覆蓋的新詞進行識別,關鍵詞匹配算法對于詞表順序顛倒、文本長尾問題,能快速準確地識別文本意圖。
2.3 語音合成——說得明
平臺采用端到端合成系統(tǒng),可直接輸入文本或注音字符,直接輸出音頻波形,該系統(tǒng)降低了對語言學知識的要求,能批量實現(xiàn)幾十種甚至更多語種的合成系統(tǒng),并且它表現(xiàn)出豐富的發(fā)音風格和強大的韻律表現(xiàn)力,加快不同聲音的合成。
3 語音OS鍛造,賦能語音生態(tài)
3.1 語音助手,賦能多形態(tài)終端
智能語音交互平臺面向多形態(tài)終端提供語音助手,采用Hook技術分離各個子模塊,實現(xiàn)語音點播、通話、聽書、對話等功能,協(xié)助平臺構建聲紋、情緒、體感等多模態(tài)識別交互和相應反饋、推薦業(yè)務,兼容主流操作系統(tǒng),支持自定義接口擴展,大大縮短接入周期和研發(fā)成本,快速賦能生態(tài)硬件及應用的語音交互能力。
3.2 語音插件,賦能海量應用
平臺面向海量應用提供語音交互插件,制定標準開放協(xié)議,基于IPC實現(xiàn)第三方應用與Launcher的跨進程通訊,當用戶調(diào)用語音控制,由平臺下發(fā)熱詞及詞槽信息,Launcher進行動態(tài)匹配并下發(fā)至第三方應用,可進行直播、點播、播控等,從而實現(xiàn)所見即所得。
4 整套場景封裝,提供系統(tǒng)解決方案
4.1 全屋智能
基于智能語音交互能力和Andlink智能家居云平臺,提供智能音箱、智能面板、智能照明、智能開關等一體化全屋智能解決方案,實現(xiàn)跨廠商設備的接入和語音控制,可與智能門禁、攝像頭等結合,實現(xiàn)家庭安防組合等細分場景。
4.2 AI客廳
打造智慧屏,通過語音遙控器、智能音箱與智能電視結合的方式,實現(xiàn)電視播控推薦,將語音能力賦能教育、電商、音樂、游戲、健康等大屏應用,發(fā)揮輕量級語音技能,實現(xiàn)一說即得的用戶體驗。
4.3智能對話服務
提供融合語義推導與語義匹配的對話理解技術,預置涵蓋音視頻娛樂、設備控制、生活服務等領域的對話能力及詞典,高效定制對話能力,在智能助手、在線客服、語音家教等領域可廣泛應用。
5 結束語
智能語音交互系統(tǒng)攻關語音識別、語義理解、語音合成等技術,快速賦能多形態(tài)終端,應用于 “能聽會說”、“能理解會思考”的AI交互體驗,實現(xiàn)從概念、技術到商業(yè)產(chǎn)品、功能應用的跨越,形成一個以語音交互技術為核心的全新應用生態(tài)鏈,促進人工智能產(chǎn)業(yè)的迅猛發(fā)展。
在5G快速發(fā)展的背景下,高帶寬和低時延特性促使智能語音交互技術不斷攻克新的難題,開啟新的篇章。在“理解”層面,重點打造“支持打斷和智能糾正”的認知型對話引擎,實現(xiàn)自然交互的本質(zhì)要求;在“應用”層面,語音交互內(nèi)容技能生態(tài)將滲透各個領域,并進行場景化的封裝,真正實現(xiàn)海量服務“開口即得”的交互體驗;在“接入”層面,語音助手持續(xù)擴大樞紐作用,賦能更多形態(tài)終端和交互應用規(guī)模起量,實現(xiàn)萬物均能說話;在“沉浸式”層面,將融合語音識別、人臉識別、表情分析、唇動狀態(tài)、眼球跟蹤、手勢識別、觸覺監(jiān)控等智能人機交互手段,完善“端-端”、“端-云-端”的交互協(xié)議,打造沉浸式多模態(tài)互動體驗。
當人機交互越來越貼近自然表達,中國移動智慧家庭運營中心將持續(xù)深化智能語音生態(tài)體系建設,引領未來美好生活。
責任編輯:gt
評論
查看更多