電子發(fā)燒友網(wǎng)報道(文/黃山明)智能家居之所以被冠以“智能”的名義,其中非常重要的一點便是人機交互。通常智能家居的交互方式有許多種,生物識別技術(shù)便是其中之一,常用的有手勢控制、指紋識別、語音控制等等。
但從智能語音市場來看,近些年來國內(nèi)相關(guān)市場持續(xù)穩(wěn)定增長,需求旺盛,據(jù)中國語音產(chǎn)業(yè)聯(lián)盟數(shù)據(jù)顯示,2021年中國智能語音產(chǎn)業(yè)市場規(guī)模將達(dá)到285億元,預(yù)計同比增長44%。
如果從網(wǎng)絡(luò)來區(qū)分,語音控制通常分為兩種,一種為離線語音,另一種為在線語音。
所謂離線語音,也被稱為本地語音,顧名思義便是儲存在本地設(shè)備中的固定命令詞,這種命令詞匯通常比較簡短,方便用于喚醒與控制。
相比在線語音,離線語音的優(yōu)勢在于無需聯(lián)網(wǎng),不需要后臺服務(wù)器,響應(yīng)快速,低延時。低成本、低功耗、體積小,支持多樣化命令詞定制開發(fā)等都是離線語音的優(yōu)勢,同時為了保證能夠成功喚醒命令詞,相比在線語音,其語音識別率會有相應(yīng)的降低。不過盡管如此,如今的離線語音識別率已經(jīng)達(dá)到了95%以上。
當(dāng)然,離線語音的劣勢也在于命令詞比較固定,采用離線語音只不過是將傳統(tǒng)的控制方式改為語音操控,但如果要真正做到人機交互的程度,還遠(yuǎn)遠(yuǎn)不夠。
并且相比在線方案,離線語音的開發(fā)周期偏久,因為量產(chǎn)的離線語音產(chǎn)品都需要重新錄詞并進(jìn)行訓(xùn)練。
這時候就體現(xiàn)出在線語音的優(yōu)勢,不再受到命令詞長度和條數(shù)的限制,廠商開發(fā)也比較方便,市場方案有很多的選擇。
這也意味著用戶可以用更加豐富的詞匯與設(shè)備進(jìn)行交互,而不只是局限在幾個固定的命令詞上。
不過相應(yīng)地,由于需要聯(lián)網(wǎng),在線語音對于網(wǎng)絡(luò)要求較高,同時響應(yīng)速度也相對較慢,并且體積也相對較大,成本較高,這都是目前智能在線語音的一些弊端。
從目前情況來看,智能語音在語音識別率上已經(jīng)有了長足的進(jìn)步,但這項技術(shù)背后涉及的聲學(xué)研究、模式識別研究、通用NLP研究以及垂直場景的深度語義理解等還遠(yuǎn)遠(yuǎn)沒有達(dá)到完善的地步。智能語音在交互體驗、使用效果、場景性優(yōu)化等方面還需要持續(xù)優(yōu)化。
國內(nèi)也有數(shù)家在智能語音方面較為優(yōu)秀的企業(yè),如科大訊飛已經(jīng)是國內(nèi)智能語音的代表企業(yè),在實時語音翻譯上走在了行業(yè)的前列。
還有如搜狗,從2012年開始在輸入法與地圖上加入語音輸入功能,通過多年用戶大數(shù)據(jù)的沉淀與積累,搜狗提升了用戶日常生活中表達(dá)、傳遞信息的效率,用軟硬件結(jié)合起來形成商業(yè)閉環(huán)。
云知聲也在2012年將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音識別系統(tǒng),在那時,云知聲已經(jīng)建立起完整的人工智能語音技術(shù)體系,實現(xiàn)對核心技術(shù)的自主可控,并開始人工智能語音技術(shù)商業(yè)化落地的早期探索。
在產(chǎn)品上,云知聲也具備了使智能家居擁有3-5畝的高精度語音控制能力。
思必馳同樣是國內(nèi)專業(yè)的對話式人工智能平臺公司,創(chuàng)立于2007年,目前不僅在語音識別率上有了大幅提升,同時在識別精度上也有了新的進(jìn)展。比如其最新推出的直面喚醒技術(shù),可以模擬真人使用情況,優(yōu)先朝向結(jié)合距離選擇被喚醒的設(shè)備。
距離相同情況下,聲音朝向的位置先喚醒;聲音朝向相同的情況下,可以讓距離更近的先喚醒。這在如今大多數(shù)智能設(shè)備都具備語音喚醒功能情況下,有較大的商用價值。
依圖科技則是語音識別、NLP、聲紋識別間距的人工智能公司,目前依圖結(jié)合自身對企業(yè)級和公共級市場的服務(wù)經(jīng)驗,將智能語音相關(guān)技術(shù)與多應(yīng)用場景相結(jié)合,在智能家居領(lǐng)域也有不小的突破。
依圖科技基于深度學(xué)習(xí)的自然語言理解技術(shù)在過去幾年取得了長足的進(jìn)步,分別在建模方式、問題描述、無監(jiān)督學(xué)習(xí)上有質(zhì)的突破,體現(xiàn)在單個任務(wù)上取得比傳統(tǒng)算法顯著更高的準(zhǔn)確率。
總體來看,當(dāng)前自然語言理解技術(shù)仍有較多難點需要解決,如算法上還需要改進(jìn)建模方式,引入實體概念,增強模型的邏輯性;另外,還需要對現(xiàn)有模型進(jìn)行加速使得應(yīng)用的成本更低。當(dāng)前自然語言理解技術(shù)逐步成熟,已被應(yīng)用于智能音箱、智能客服、翻譯、智能文檔分析等多個場景。
原文標(biāo)題:智能家居語音技術(shù)發(fā)展現(xiàn)狀
文章出處:【微信公眾號:電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
審核編輯:湯梓紅
-
生物識別
+關(guān)注
關(guān)注
3文章
1210瀏覽量
52529 -
智能家居
+關(guān)注
關(guān)注
1928文章
9578瀏覽量
185518 -
人工智能
+關(guān)注
關(guān)注
1792文章
47409瀏覽量
238923
原文標(biāo)題:智能家居語音技術(shù)發(fā)展現(xiàn)狀
文章出處:【微信號:elecfans,微信公眾號:電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論