語音識別技術,也被稱為自動語音識別(Automatic Speech Recognition,ASR),是以語音為研究對象,通過語音信號處理和模式識別讓機器理解人類語言,并將其轉換為計算機可輸入的數字信號的一門技術。
語音識別的技術歷程
現代語音識別可以追溯到1952年,Davis等人研制了世界上第一個能識別10個英文數字發(fā)音的實驗系統(tǒng),從此正式開啟了語音識別的進程。語音識別發(fā)展到今天已經有70多年,但從技術方向上可以大體分為三個階段。
下圖是從1993年到2017年在Switchboard上語音識別率的進展情況,從圖中也可以看出1993年到2009年,語音識別一直處于GMM-HMM時代,語音識別率提升緩慢,尤其是2000年到2009年語音識別率基本處于停滯狀態(tài)。2009年隨著深度學習技術,特別是DNN的興起,語音識別框架變?yōu)镈NN-HMM,語音識別進入了DNN時代,語音識別精準率得到了顯著提升。
2015年以后,由于“端到端”技術興起,語音識別進入了百花齊放時代,語音界都在訓練更深、更復雜的網絡,同時利用端到端技術進一步大幅提升了語音識別的性能,直到2017年微軟在Swichboard上達到詞錯誤率5.1%,從而讓語音識別的準確性首次超越了人類,當然這是在一定限定條件下的實驗結果,還不具有普遍代表性。
語音識別原理
語音識別的本質是一種基于語音特征參數的模式識別,即通過學習,系統(tǒng)能夠把輸入的語音按一定模式進行分類,進而依據判定準則找出最佳匹配結果。目前,模式匹配原理已經被應用于大多數語音識別系統(tǒng)中。如圖1是基于模式匹配原理的語音識別系統(tǒng)框圖。
一般的模式識別包括預處理,特征提取,模式匹配等基本模塊。如圖所示首先對輸入語音進行預處理,其中預處理包括分幀,加窗,預加重等。其次是特征提取,因此選擇合適的特征參數尤為重要。
常用的特征參數包括:基音周期,共振峰,短時平均能量或幅度,線性預測系數(LPC),感知加權預測系數(PLP),短時平均過零率,線性預測倒譜系數(LPCC),自相關函數,梅爾倒譜系數(MFCC),小波變換系數,經驗模態(tài)分解系數(EMD),伽馬通濾波器系數(GFCC)等。
在進行實際識別時,要對測試語音按訓練過程產生模板,最后根據失真判決準則進行識別。常用的失真判決準則有歐式距離,協方差矩陣與貝葉斯距離等。
語音識別技術涉及的領域有哪些
它涉及的領域相當廣泛,包括但不限于以下幾個方面:
智能語音助手:智能語音技術為我們帶來了智能助理,如Siri、小愛同學等。用戶可以通過語音與智能助理進行交流,詢問天氣、定鬧鐘、發(fā)送消息等,實現更加直觀、便捷的操作。
智能家居:借助智能語音技術,用戶可以通過簡單的口頭指令控制家居設備,例如開關燈、調整溫度、播放音樂等,實現智能家居的全方位控制和管理。
醫(yī)療領域:語音識別技術可以輔助醫(yī)生對病人進行診斷,對病人的病情和治療方案進行記錄等。此外,它還可以應用于醫(yī)療設備的操作中,使得醫(yī)療設備更加智能化和便利化。
教育領域:語音識別技術可以輔助學生進行口語練習,提高學生的英語口語水平等。另外,它還可以應用于教育評測中,通過語音識別來評估學生的語音表達能力、語感等。
金融領域:語音識別技術可以用于身份驗證、語音指令操作等。此外,它還可以應用于金融客戶服務中,使得客戶可以通過語音來查詢賬戶信息、進行轉賬等操作,更加便捷快速。
游戲領域:語音識別技術可以應用于游戲領域,如通過語音識別來與游戲角色進行交互,使得游戲更加真實、有趣。
智能客服:語音識別技術可以幫助用戶通過語音指令獲取客服服務,解決客服等待時間長的問題。
語音翻譯:在全球化的今天,語音識別技術可以幫助人們實現不同語言之間的翻譯。
隨著技術的不斷發(fā)展和完善,語音識別技術將在更多領域得到應用,并為人們的生活帶來更多便利。
審核編輯:黃飛
-
信號處理
+關注
關注
48文章
1029瀏覽量
103285 -
數字信號
+關注
關注
2文章
970瀏覽量
47551 -
語音識別
+關注
關注
38文章
1739瀏覽量
112661
發(fā)布評論請先 登錄
相關推薦
評論