分析目的:了解語音助手的市場現(xiàn)狀以及趨勢,分析競品產(chǎn)品定位,異同點,深化對產(chǎn)品的理解。
分析范疇:訊飛語點機頂盒,小米電視,小愛同學,小度DuerOs電視伴侶。
分析方法:智能語音交互技術(shù)解析,智能語音市場分析,競品主要產(chǎn)品功能,競品體驗。
一、語音交互技術(shù)
語音交互(VUI)指的是人類與設備通過自然語音進行信息的傳遞,一次完整的語音交互需要經(jīng)歷ASR→NLP→Skill→TTS的流程。
語音識別(Automatic Speech Recognition):簡稱ASR,是將聲音轉(zhuǎn)化成文字的過程。
自然語言處理(Natural Language Processing):簡稱NLP,是理解和處理文本的過程。
語音合成(Text-To-Speech):簡稱TTS,是把文本轉(zhuǎn)化成語音的過程。
智能語音交互系統(tǒng)作為人工智能最為典型的應用之一,可以將其技術(shù)拆分為如上圖部分。
在實際的應用場景中,對智能語音交互系統(tǒng)將提出特定的需求,本報告集中于家庭大屏場景下的交互分析。
值得注意的是,不同公司在智能語音技術(shù)的優(yōu)勢各有不同。其中,以行業(yè)龍頭科大訊飛為代表,基于其深耕行業(yè)20載,在語音識別,聲紋識別,語種識別有著較大的優(yōu)勢。
二、語音助手的市場現(xiàn)狀
1. 全球智能語音市場分析
據(jù)統(tǒng)計數(shù)據(jù)顯示:2017年全球智能語音美元,同比增長30%。隨著移動互聯(lián)網(wǎng),智能家居,汽車,醫(yī)療等領(lǐng)域的應用帶動智能語音產(chǎn)業(yè)規(guī)模持續(xù)快速增長,預計2019年全球智能語音市場規(guī)模將突破170億美元。
2. 全球智能語音市場份額
在全球智能語音市場份額占比中,Nuance全球市場占有率排名第一,市占率達到31.6%;其次為谷歌,市場占有率為28.4%;排名第三的是蘋果,市占率為15.4%;其后為微軟以及科大訊飛分別占有8.1%以及4.5%的市場份額。
3. 中國智能語音市場分析
在人工智能和物聯(lián)網(wǎng)技術(shù)的發(fā)展帶領(lǐng)下,智能家居蓬勃興起,互聯(lián)網(wǎng)巨頭及新興創(chuàng)業(yè)公司從硬件、技術(shù)、系統(tǒng)解決方案等不同角度進行布局,智能家居系統(tǒng)初步顯現(xiàn)。
預計2019年,中國智能家具市場規(guī)模將超1900億,雖增長規(guī)模有所放緩,但市場規(guī)模將保持穩(wěn)定增長,2020年將突破2000億元。
4. 語音交互的市場規(guī)模以及市場格局
目前,中國智能語音市場的主要份額被科大訊飛、百度以及蘋果分割。
數(shù)據(jù)顯示:目前為止,中國智能語音市場,科大訊飛市場占有率排名第一,市占率達到44%;其次為百度,市場占有率為28%;排名第三的是的蘋果,市占率為7%;其后為Nuance以及小i機器人占有均為3.0%的市場份額(前瞻產(chǎn)業(yè)研究)。
5. 中國家庭大屏產(chǎn)業(yè)
中國電視機出貨量在經(jīng)歷2011年到2016年的持續(xù)正向增長后,2017年?次出現(xiàn)負增長,這?情況將在 2018年有所好轉(zhuǎn)。
同時,互聯(lián)?電視機出貨量占?連年穩(wěn)定攀升,預計2018年將達到88%,全年出貨量近 4000萬臺。2018年上半年,受世界杯效應影響,銷量同?增長3.6%,但受降價影響,整體營業(yè)額下降2%,綜合測算全年銷量同?增長3%。
以電視機為代表的大屏設備在智能家居中扮演著舉足輕重的作用,作為智能家居最為主要的交互方式——語音交互,智能語音交互系統(tǒng)有著巨大的市場規(guī)模和發(fā)展?jié)摿?,本報告聚焦于基于大屏的智能語音交互系統(tǒng)進行分析。
相較于移動端的場景不同,大屏設備的主要使用場景在室內(nèi),集中于家庭。目標客戶和使用場景的獨特性,使得智能語音應用在該場景的使用具有特殊性。
例如用戶在近景中,我要看語文。這里“看”理解成學還是點播,意味著完全不同的跳轉(zhuǎn)頁面。這對于語義理解提出了較高的要求。
大屏設備作為智能家居概念的重要組成部分,也是語音交互的重要入口必然成為市場必爭的重要領(lǐng)域。
當我們轉(zhuǎn)向用戶思考IOT時代萬物互聯(lián),意味著你身邊的任何設備都是聯(lián)網(wǎng)的,你可以在任何地方、任何時間和任何設備交互(IOT的4A原則),所以IOT將大大消弱了手機當前的交互中心地位。
當云端開始普及之后,未來計算平臺的前臺,是一系列形態(tài)、功能各異的智能硬件,這些硬件或大或小,有屏或無屏,近場或遠場,位置固定或隨身移動。雖然千差萬別,用戶卻希望在任何一臺設備上的交互狀態(tài)可以云端同步至其他設備,用戶可能隨時在設備間切換,但希望交互進程和數(shù)據(jù)流不被中斷、持續(xù)向前(集群智能)。
那么,什么樣的交互能夠支撐這種切換需求、適配各類設備而又保證體驗的一致性呢?
從這個角度思考,我們很容易就能發(fā)現(xiàn)語音交互的獨特優(yōu)勢。
6. 語音交互的優(yōu)勢
解放雙手、雙眼、雙腿,接觸空間限制,近場,遠場可交互;
指向明確,語義直達目標,縮短使用路徑;
自然簡單人性化,學習門檻低;
可以1對1,也可以1對多;
對設備要求低。
二、競品對比分析概覽
1. 競品簡介
小愛同學是小米科技于2017年7月26日推出的智能語音交互系統(tǒng),適用于智能音響及其他智能設備,建構(gòu)于小愛開放平臺上,可以通過連接進入米家物聯(lián)網(wǎng)系統(tǒng)控制所有的米家智能設備。
小度電視伴侶是百度旗下的一款智能硬件產(chǎn)品,內(nèi)置DuerOS系統(tǒng)。從產(chǎn)品的概念來看,其以 Soundbar 的形態(tài)融入高性能 4K 機頂盒、智能音箱的功能,其三合一的創(chuàng)新產(chǎn)品形態(tài),為客廳影音場景帶來了簡潔的一體性解決方案。
依托全語音交互大屏吸引,小度電視伴侶可實現(xiàn)利用語音打開設置中的藍牙開關(guān)、調(diào)整圖像設置等等。如“打開WiFi”“打開設置”等等,或者根據(jù)界面顯示的內(nèi)容,用語音命令指定播放視頻內(nèi)容,如“播放第三個”“這個人是誰”等等。此外,小度電視伴侶還可以通過語音控制多款智能設備,如“打開落地燈”“打開空調(diào)”等等。
訊飛語點是由科大訊飛推出的智能語音交互系統(tǒng), 在2015年,科大訊飛重新定義了萬物互聯(lián)時代的人機交互標準,發(fā)布了對人工智能產(chǎn)業(yè)具有里程碑意義的人機交互界面——AIUI。
2016年,圍繞科大訊飛人工智能開放平臺的使用人次與創(chuàng)業(yè)團隊成倍增長。截至2017年1月,訊飛開放平臺在線日服務量超30億人次,合作伙伴達到25萬家,用戶數(shù)超9.1億,以科大訊飛為中心的人工智能產(chǎn)業(yè)生態(tài)持續(xù)構(gòu)建。
2. 目標客戶
本報告針對基于家庭大屏的智能語音交互系統(tǒng)的競品分析,故家庭大屏用戶為本報告產(chǎn)品的目標用戶。
現(xiàn)階段,主流大屏視頻接入主要分為DTV,IPTV和OTT三種類型,截?2018年Q2,DTV、OTT的中國城鎮(zhèn)家庭?屏保有量均超過2億戶,IPTV??保有量達到1.42億。其中,中國移動魔百和在?東省有約1000萬的?戶成功轉(zhuǎn)為IPTV?戶,移動OTT盒?并?IPTV陣營可能成為趨勢,那么有望在短期內(nèi)使IPTV總?戶也躍升?2億戶。
受限于數(shù)據(jù)和資料,本報告對不同類型的大屏終端用戶不作區(qū)分,以所有大屏用戶作為目標用戶作為分析對象。
大屏用戶性別分布比例:
大屏用戶年齡分布比例:
大屏用戶學歷分布比例:
基于現(xiàn)有數(shù)據(jù)可以分析得出,大屏用戶的用戶分布較為平均。
與傳統(tǒng)的人工智能產(chǎn)品以年輕人、高學歷、男性為主要目標用戶不同;基于大屏的智能語音交互系統(tǒng)用戶分布更為平均和廣泛,這種特點對具體場景的需求設計提出的新的要求。
目標用戶群體畫像不具有代表性,使得產(chǎn)品在設計和開發(fā)時需要更多的關(guān)注于場景而不是用戶,從該場景下的通用需求出發(fā)對產(chǎn)品進行設計和迭代。
三、評價指標
本報告基于智能語音交互系統(tǒng)使用場景,在大屏語音交互外結(jié)合了車載語音交互系統(tǒng)評價的標準,制定出對于大屏語音交互的性能評價體系。
智能語音交互系統(tǒng)的性能需滿足以下指標要求,其中喚醒率和誤喚醒率應針對支持語音喚醒功能的語音交互系統(tǒng)。
1. ASR
1.1 字準確率
該指標用于評價語音交互系統(tǒng)輸出的人類可是別的文本信息正確率。對于中文普通話語音交互系統(tǒng),該項指標的評價分類如表1。
1.2 識別成功率
若語音交互系統(tǒng)在既定的識別輪數(shù)內(nèi)完成了語音識別任務,則此次語音識別成功。語音識別成功與否應該兼顧語音交互系統(tǒng)動作的可靠性問題。
若語音交互系統(tǒng)共進行了R次特定的語音識別任務,其中SR次識別成功,F(xiàn)R次識別出現(xiàn)誤操作(包括但不限于 未在既定的識別輪數(shù)內(nèi)完成,未完成識別前提前退出,識別無響應)。則:
識別成功率= SR/R * 100%
誤操作率 = FR/R * 100%
識別成功率 + 誤操作率 = 1
1.3 平均響應時間
該指標用于評價語音交互系統(tǒng)對語音識別任務的響應速度,離線語音交互系統(tǒng)的平均響應時間應≤2S;在線語音交互系統(tǒng)的評價響應時間應≤3S。
1.4 喚醒率
若語音交互系統(tǒng)共進行了W次喚醒,其中SW次成功喚醒。則:
喚醒率 = SW/W * 100%
該指標用于評價語音交互系統(tǒng)在有背景噪音情況下,對語音喚醒操作的正確響應情況。
1.5 誤喚醒率
若車載語音交互系統(tǒng)在T小時內(nèi)出現(xiàn)FW次誤喚醒。則:
誤喚醒率=FW/T 次/小時
該指標用于評價語音交互系統(tǒng)在有背景噪音的情況下,對語音喚醒操作的錯誤響應情況。
2. TTS
主觀測試(自然度),以MOS為主:
MOS(Mean Opinion Scores),專家級評測(主觀);1-5分,5分最好;
ABX,普通用戶評測(主觀)。讓用戶來視聽兩個TTS系統(tǒng),進行對比,評測出聲音的自然度。
3. 交流體驗
3.1 用戶任務達成率(表征產(chǎn)品功能是否有用以及功能覆蓋度)
比如智能客服,如果這個Session最終是以接入人工操作為結(jié)束的,那基本就說明機器的回答有問題,或者重復提供給用戶相同答案等。
3.2 對話交互效率
比如用戶完成一個任務的耗時、回復語對信息傳遞和動作引導的效率、用戶進行語音輸入的效率等(可能和打斷,One-shot等功能相關(guān))。
3.3 根據(jù)對話系統(tǒng)的類型分類
1)閑聊型
CPS(Conversations Per Session,平均單次對話輪數(shù))。值得注意的是此指標為微軟小冰最早期提出的指標,并且是小冰內(nèi)部的(唯一)最重要指標。
相關(guān)性和新穎性。與原話題要有一定的相關(guān)性,但又不能是非常相似的話;
話題終結(jié)者。如果機器說過這句話之后,通常用戶都不會繼續(xù)接了,那這句話就會給個負分。
2)任務型
留存率:雖然是傳統(tǒng)的指標,但是能夠發(fā)現(xiàn)用戶有沒有形成這樣的使用習慣;留存的計算甚至可以精確到每個功能,然后進一步根據(jù)功能區(qū)做歸類,看看用戶對哪類任務的接受程度較高,還可以從用戶的問句之中分析發(fā)出指令的習慣去針對性的優(yōu)化解析和對話過程;到后面積累的特征多了,評價機制建立起來了,就可以上強化學習;比如之前百度高考,教考生填報志愿,就是這么弄的。
完成度(即前文提過的“用戶任務達成率”):由于任務型最后總要去調(diào)一個接口或者觸發(fā)什么東西來完成任務,所以可以計算多少人進入了這個對話單元,其中有多少人最后調(diào)了接口。
相關(guān)的還有(每個任務)平均slot填入輪數(shù)或填充完整度。即完成一個任務,平均需要多少輪,平均填寫了百分之多少的槽位slot。
3)問答型
最終借助人工操作的比例;
重復問同樣問題的比例;
“沒答案”之類的比例。
整體來說,行業(yè)一般PR宣傳時,會更多的提CPS,其他指標看起來可能相對太瑣碎或不夠高大上。
但是,實際工作中,可能CPS更多是面向閑聊型對話系統(tǒng);而其他的場景,可能更應該從“效果”出發(fā)。比如,如果小孩子哭了,機器人能夠“哭聲安慰”,沒必要對話那么多輪次,反而應該越少越好。
4. 語料自然度和人性化的程度
目前對于這類問題,一般是使用人工評估的方式進行。這里的語料,通常不是單個句子,而是分為單輪的問答對或多輪的一個session。
一般來講,評分范圍是1~5分:
1分或2分:完全答非所問,以及含有不友好內(nèi)容或不適合語音播報的特殊內(nèi)容;
3分:基本可用,問答邏輯正確;
4分:能解決用戶問題且足夠精煉;
5分:在4分基礎(chǔ)上,能讓人感受到情感及人設。
另外,為了消除主觀偏差,采用多人標注、去掉極端值的方式。
四、產(chǎn)品功能對比一覽
可以看出智能語音交互系統(tǒng)不僅僅局限于對智能家居設備的語言控制,不同廠家的語言交互產(chǎn)品都進行了大量的功能開發(fā),包括但不限于生活管理服務、游戲、生活百科、增值服務。如
何挖掘出該場景下用戶的深度需求,抓住場景下用戶的痛點變成了各家廠商需要重點考慮的問題。
五、產(chǎn)品體驗細節(jié)對比
1. 功能體驗
根據(jù)影響用戶選擇語音助手線上調(diào)查問卷的結(jié)構(gòu),語音識別準確度,操作便捷,輸入速度快,功能多樣,詞庫豐富等因素,對比分析部分產(chǎn)品體驗細節(jié)。
本報告針對語音交互系統(tǒng)中常用的業(yè)務場景進行了測試,通過對具體功能的體驗對比進一步了解。
基于上述功能體驗,訊飛語點在語音合成失真度和反應時間上具有一定的優(yōu)勢,這主要得益于科大訊飛在語音技術(shù)上的技術(shù)積累。
小度在語音交互時,更加側(cè)重音樂搜索功能。在“劉德華的無間道”和黃梅戲的交互中,小度均直接跳轉(zhuǎn)進QQ語音界面。
在開放式聊天中,小度的體驗感較差。無法理解用戶意圖時,采用了相同的語音反饋使得用戶的使用欲望降低。小愛同學針對開發(fā)式問題,有著不同的反饋。
在知識百科場景下,小度體現(xiàn)出了較強的優(yōu)勢。該優(yōu)勢得益于百度在搜索引擎中的長期積累。
2. VUI體驗
(因機頂盒配置問題,無法體驗)
六、總結(jié)分析
智能語音交互系統(tǒng)依然存在著發(fā)展空間,競爭進入了白熱化階段。以本報告的三款產(chǎn)品為例,訊飛語點,小愛同學和小度分別擁有自身的發(fā)展優(yōu)勢。但值得一提的是,暫時未出現(xiàn)一款絕對領(lǐng)先的產(chǎn)品。各款產(chǎn)品都擁有自己優(yōu)勢和劣勢,特別地在某些特定的場景中體驗分化極大。
現(xiàn)階段,語音交互系統(tǒng)中語音識別環(huán)節(jié)暫無較大差距。盡管在地方性語言識別上科大訊飛擁有著較大優(yōu)勢,由于其使用場景較為單一且目標用戶數(shù)量有限,難以形成產(chǎn)品優(yōu)勢。
在NLP階段,由于各款產(chǎn)品技術(shù)背景的差異,使得其在不同場景下存在獨特的優(yōu)勢。例如:訊飛語點的方言識別,小愛的米家產(chǎn)品控制,小度的語音檢索。但在識別語音意圖時,與真實的對話依然才存在著較大差距。
搭載于大屏上的智能語音交互系統(tǒng),由于其場景較為復雜,仍然需要一段時間進行發(fā)展和完善。
關(guān)于語音交互系統(tǒng)未來的猜想
智能語音交互系統(tǒng)在IOT和5G的技術(shù)的不斷發(fā)展和普及下,將會擁有越來越大的發(fā)揮空間和巨大的市場需求,智能語音交互系統(tǒng)也將會從閉環(huán)問答式的產(chǎn)品逐步走向開環(huán)交流式的智能產(chǎn)品。
作為一款智能產(chǎn)品,智能語音交互系統(tǒng)將逐漸實現(xiàn)情感化的功能,從一個智能系統(tǒng)到擁有情感需求的智能機器人。可以想象的是,智能語音交互系統(tǒng)將會成為人工智能發(fā)展的一個重要體現(xiàn),并在未來的生活中扮演著越來越重要的作用。
-
智能家居
+關(guān)注
關(guān)注
1928文章
9587瀏覽量
185761 -
語音識別
+關(guān)注
關(guān)注
38文章
1742瀏覽量
112743 -
人工智能
+關(guān)注
關(guān)注
1792文章
47492瀏覽量
239176
發(fā)布評論請先 登錄
相關(guān)推薦
評論