語(yǔ)音是人類最自然的交互方式。計(jì)算機(jī)發(fā)明之后,讓機(jī)器能夠“聽(tīng)懂”人類的語(yǔ)言,理解語(yǔ)言中的內(nèi)在含義,并能做出正確的回答就成為了人們追求的目標(biāo)。這個(gè)過(guò)程中主要涉及3種技術(shù),即自動(dòng)語(yǔ)音識(shí)別;自然語(yǔ)言處理(目的是讓機(jī)器能理解人的意圖)和語(yǔ)音合成(目的是讓機(jī)器能說(shuō)話)
與機(jī)器進(jìn)行語(yǔ)音交流,讓它聽(tīng)明白你在說(shuō)什么。語(yǔ)音識(shí)別技術(shù)將人類這一曾經(jīng)的夢(mèng)想變成了現(xiàn)實(shí)。語(yǔ)音識(shí)別技術(shù)就是“機(jī)器的聽(tīng)覺(jué)系統(tǒng)”,該技術(shù)讓機(jī)器通過(guò)識(shí)別和理解,把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。
現(xiàn)代智能語(yǔ)音識(shí)別技術(shù)的起源及發(fā)展
在1952年的貝爾研究所,Davis等人研制了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年英國(guó)的Denes等人研制了第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。
大規(guī)模的語(yǔ)音識(shí)別研究始于上世紀(jì)70年代以后,并在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。上世紀(jì)80年代以后,語(yǔ)音識(shí)別研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別。
同時(shí),語(yǔ)音識(shí)別在研究思路上也發(fā)生了重大變化,由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開(kāi)始轉(zhuǎn)向基于統(tǒng)計(jì)模型的技術(shù)思路。此外,業(yè)內(nèi)有專家再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語(yǔ)音識(shí)別問(wèn)題的技術(shù)思路。
上世紀(jì)90年代以后,在語(yǔ)音識(shí)別的系統(tǒng)框架方面并沒(méi)有什么重大突破。但是,在語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。比如,DARPA是在上世界70年代由美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局資助的一項(xiàng)計(jì)劃,旨在支持語(yǔ)言理解系統(tǒng)的研究開(kāi)發(fā)工作。進(jìn)入上世紀(jì)90年代,DARPA計(jì)劃仍在持續(xù)進(jìn)行中,其研究重點(diǎn)已轉(zhuǎn)向識(shí)別裝置中的自然語(yǔ)言處理部分,識(shí)別任務(wù)設(shè)定為“航空旅行信息檢索”。
我國(guó)的語(yǔ)音識(shí)別研究起始于1958年,由中國(guó)科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音。由于當(dāng)時(shí)條件的限制,中國(guó)的語(yǔ)音識(shí)別研究工作一直處于緩慢發(fā)展的階段。直至1973年,中國(guó)科學(xué)院聲學(xué)所開(kāi)始了計(jì)算機(jī)語(yǔ)音識(shí)別。
進(jìn)入上世紀(jì)80年代以來(lái),隨著計(jì)算機(jī)應(yīng)用技術(shù)在我國(guó)逐漸普及和應(yīng)用以及數(shù)字信號(hào)技術(shù)的進(jìn)一步發(fā)展,國(guó)內(nèi)許多單位具備了研究語(yǔ)音技術(shù)的基本條件。與此同時(shí),國(guó)際上語(yǔ)音識(shí)別技術(shù)在經(jīng)過(guò)了多年的沉寂之后重又成為研究的熱點(diǎn)。在這種形式下,國(guó)內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去。
1986年,語(yǔ)音識(shí)別作為智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要組成部分而被專門列為研究課題。在“863”計(jì)劃的支持下,中國(guó)開(kāi)始組織語(yǔ)音識(shí)別技術(shù)的研究,并決定了每隔兩年召開(kāi)一次語(yǔ)音識(shí)別的專題會(huì)議。自此,我國(guó)語(yǔ)音識(shí)別技術(shù)進(jìn)入了一個(gè)新的發(fā)展階段。
自2009年以來(lái),借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展以及大數(shù)據(jù)語(yǔ)料的積累,語(yǔ)音識(shí)別技術(shù)得到突飛猛進(jìn)的發(fā)展。
將機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究引入到語(yǔ)音識(shí)別聲學(xué)模型訓(xùn)練,使用帶RBM預(yù)訓(xùn)練的多層神經(jīng)網(wǎng)絡(luò),提高了聲學(xué)模型的準(zhǔn)確率。在此方面,微軟公司的研究人員率先取得了突破性進(jìn)展,他們使用深層神經(jīng)網(wǎng)絡(luò)模型(DNN)后,語(yǔ)音識(shí)別錯(cuò)誤率降低了30%,是近20年來(lái)語(yǔ)音識(shí)別技術(shù)方面最快的進(jìn)步。
2009年前后,大多主流的語(yǔ)音識(shí)別解碼器已經(jīng)采用基于有限狀態(tài)機(jī)(WFST)的解碼網(wǎng)絡(luò),該解碼網(wǎng)絡(luò)可以把語(yǔ)言模型、詞典和聲學(xué)共享音字集統(tǒng)一集成為一個(gè)大的解碼網(wǎng)絡(luò),提高了解碼的速度,為語(yǔ)音識(shí)別的實(shí)時(shí)應(yīng)用提供了基礎(chǔ)。
隨著互聯(lián)網(wǎng)的快速發(fā)展,以及手機(jī)等移動(dòng)終端的普及應(yīng)用,可以從多個(gè)渠道獲取大量文本或語(yǔ)音方面的語(yǔ)料,這為語(yǔ)音識(shí)別中的語(yǔ)言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源,使得構(gòu)建通用大規(guī)模語(yǔ)言模型和聲學(xué)模型成為可能。
在語(yǔ)音識(shí)別中,訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動(dòng)系統(tǒng)性能提升的最重要因素之一,但是語(yǔ)料的標(biāo)注和分析需要長(zhǎng)期的積累和沉淀,隨著大數(shù)據(jù)時(shí)代的來(lái)臨,大規(guī)模語(yǔ)料資源的積累將提到戰(zhàn)略高度。
現(xiàn)如今,語(yǔ)音識(shí)別在移動(dòng)終端上的應(yīng)用最為火熱,語(yǔ)音對(duì)話機(jī)器人、語(yǔ)音助手、互動(dòng)工具等層出不窮,許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財(cái)力展開(kāi)此方面的研究和應(yīng)用,目的是通過(guò)語(yǔ)音交互的新穎和便利模式迅速占領(lǐng)客戶群。
語(yǔ)音識(shí)別技術(shù)的主要方法
目前具有代表性的語(yǔ)音識(shí)別方法主要有動(dòng)態(tài)時(shí)間規(guī)整技術(shù)(DTW)、隱馬爾可夫模型(HMM)、矢量量化(VQ)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(jī)(SVM)等方法。
動(dòng)態(tài)時(shí)間規(guī)整算法(Dynamic Time Warping,DTW)是在非特定人語(yǔ)音識(shí)別中一種簡(jiǎn)單有效的方法,該算法基于動(dòng)態(tài)規(guī)劃的思想,解決了發(fā)音長(zhǎng)短不一的模板匹配問(wèn)題,是語(yǔ)音識(shí)別技術(shù)中出現(xiàn)較早、較常用的一種算法。在應(yīng)用DTW算法進(jìn)行語(yǔ)音識(shí)別時(shí),就是將已經(jīng)預(yù)處理和分幀過(guò)的語(yǔ)音測(cè)試信號(hào)和參考語(yǔ)音模板進(jìn)行比較以獲取他們之間的相似度,按照某種距離測(cè)度得出兩模板間的相似程度并選擇最佳路徑。
隱馬爾可夫模型(HMM)是語(yǔ)音信號(hào)處理中的一種統(tǒng)計(jì)模型,是由Markov鏈演變來(lái)的,所以它是基于參數(shù)模型的統(tǒng)計(jì)識(shí)別方法。由于其模式庫(kù)是通過(guò)反復(fù)訓(xùn)練形成的與訓(xùn)練輸出信號(hào)吻合概率最大的最佳模型參數(shù)而不是預(yù)先儲(chǔ)存好的模式樣本,且其識(shí)別過(guò)程中運(yùn)用待識(shí)別語(yǔ)音序列與HMM參數(shù)之間的似然概率達(dá)到最大值所對(duì)應(yīng)的最佳狀態(tài)序列作為識(shí)別輸出,因此是較理想的語(yǔ)音識(shí)別模型。
矢量量化(Vector Quantization)是一種重要的信號(hào)壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語(yǔ)音識(shí)別中。其過(guò)程是將若干個(gè)語(yǔ)音信號(hào)波形或特征參數(shù)的標(biāo)量數(shù)據(jù)組成一個(gè)矢量在多維空間進(jìn)行整體量化。把矢量空間分成若干個(gè)小區(qū)域,每個(gè)小區(qū)域?qū)ふ乙粋€(gè)代表矢量,量化時(shí)落入小區(qū)域的矢量就用這個(gè)代表矢量代替。矢量量化器的設(shè)計(jì)就是從大量信號(hào)樣本中訓(xùn)練出好的碼書(shū),從實(shí)際效果出發(fā)尋找到好的失真測(cè)度定義公式,設(shè)計(jì)出最佳的矢量量化系統(tǒng),用最少的搜索和計(jì)算失真的運(yùn)算量實(shí)現(xiàn)最大可能的平均信噪比。
在實(shí)際的應(yīng)用過(guò)程中,人們還研究了多種降低復(fù)雜度的方法,包括無(wú)記憶的矢量量化、有記憶的矢量量化和模糊矢量量化方法。
人工神經(jīng)網(wǎng)絡(luò)(ANN)是20世紀(jì)80年代末期提出的一種新的語(yǔ)音識(shí)別方法。其本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),模擬了人類神經(jīng)活動(dòng)的原理,具有自適應(yīng)性、并行性、魯棒性、容錯(cuò)性和學(xué)習(xí)特性,其強(qiáng)大的分類能力和輸入—輸出映射能力在語(yǔ)音識(shí)別中都很有吸引力。其方法是模擬人腦思維機(jī)制的工程模型,它與HMM正好相反,其分類決策能力和對(duì)不確定信息的描述能力得到舉世公認(rèn),但它對(duì)動(dòng)態(tài)時(shí)間信號(hào)的描述能力尚不盡如人意,通常MLP分類器只能解決靜態(tài)模式分類問(wèn)題,并不涉及時(shí)間序列的處理。盡管學(xué)者們提出了許多含反饋的結(jié)構(gòu),但它們?nèi)圆蛔阋钥坍嬛T如語(yǔ)音信號(hào)這種時(shí)間序列的動(dòng)態(tài)特性。由于ANN不能很好地描述語(yǔ)音信號(hào)的時(shí)間動(dòng)態(tài)特性,所以常把ANN與傳統(tǒng)識(shí)別方法結(jié)合,分別利用各自優(yōu)點(diǎn)來(lái)進(jìn)行語(yǔ)音識(shí)別而克服HMM和ANN各自的缺點(diǎn)。近年來(lái)結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型的識(shí)別算法研究取得了顯著進(jìn)展,其識(shí)別率已經(jīng)接近隱含馬爾可夫模型的識(shí)別系統(tǒng),進(jìn)一步提高了語(yǔ)音識(shí)別的魯棒性和準(zhǔn)確率。
支持向量機(jī)(Support vector machine)是應(yīng)用統(tǒng)計(jì)學(xué)理論的一種新的學(xué)習(xí)機(jī)模型,采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理(Structural Risk Minimization,SRM),有效克服了傳統(tǒng)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化方法的缺點(diǎn)。兼顧訓(xùn)練誤差和泛化能力,在解決小樣本、非線性及高維模式識(shí)別方面有許多優(yōu)越的性能,已經(jīng)被廣泛地應(yīng)用到模式識(shí)別領(lǐng)域。
語(yǔ)音識(shí)別技術(shù)模型在中深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用
深度學(xué)習(xí)是指利用多層的非線性信號(hào)和信息處理技術(shù),通過(guò)有監(jiān)督或者無(wú)監(jiān)督的方法,進(jìn)行信號(hào)轉(zhuǎn)換、特征提取以及模式分類等任務(wù)的機(jī)器學(xué)習(xí)類方法的總稱。因?yàn)椴捎蒙顚咏Y(jié)構(gòu)模型對(duì)信號(hào)和信息進(jìn)行處理,所以這里稱為“深度”學(xué)習(xí)。傳統(tǒng)的機(jī)器學(xué)習(xí)模型很多屬于淺層結(jié)構(gòu)模型,例如支持向量機(jī)、GMM、HMM、條件隨機(jī)場(chǎng)、線性或者非線性動(dòng)態(tài)系統(tǒng)、單隱層的神經(jīng)網(wǎng)絡(luò)等。
原始的輸入信號(hào)只經(jīng)過(guò)比較少的層次(通常是一層)的線性或者非線性處理以達(dá)到信號(hào)與信息處理,是這些結(jié)構(gòu)模型的共同特點(diǎn)。淺層模型的優(yōu)點(diǎn)在于在數(shù)學(xué)上有比較完善的算法,并且結(jié)構(gòu)簡(jiǎn)單、易于學(xué)習(xí)。但是淺層模型使用的線性或者非線性變換組合比較少,對(duì)于信號(hào)中復(fù)雜的結(jié)構(gòu)信息并不能有效地學(xué)習(xí),對(duì)于復(fù)雜信號(hào)的表達(dá)能力有局限性。而深層結(jié)構(gòu)的模型則更適合于處理復(fù)雜類型的信號(hào),原因在于深層結(jié)構(gòu)具備多層非線性變換,具有更強(qiáng)的表達(dá)與建模能力。
人類語(yǔ)音信號(hào)產(chǎn)生和感知就是這樣一個(gè)極其復(fù)雜的過(guò)程,并且在生物學(xué)上被證明具有明顯的多層次甚至深層次的處理結(jié)構(gòu),所以,對(duì)于語(yǔ)音識(shí)別任務(wù),采用淺層結(jié)構(gòu)模型明顯有很大的局限性。利用深層次結(jié)構(gòu)中的多層非線性變換進(jìn)行語(yǔ)音信號(hào)中的結(jié)構(gòu)化信息和更高層信息的提取,是更加合理的選擇。
DNN在語(yǔ)音識(shí)別系統(tǒng)中的應(yīng)用和局限性
從2011年之后,基于DNN-HMM聲學(xué)模型在多種語(yǔ)言、多種任務(wù)的語(yǔ)音識(shí)別上取得了比傳統(tǒng) GMM-HMM 聲學(xué)模型大幅度且一致性的效果提升?;贒NN-HMM語(yǔ)音識(shí)別系統(tǒng)的基本框架如圖所示,采用DNN替換GMM模型來(lái)建模語(yǔ)音觀察概率,是其和傳統(tǒng)的 GMM-HMM 語(yǔ)音識(shí)別系統(tǒng)最大的不同。前饋型深度神經(jīng)網(wǎng)絡(luò)由于比較簡(jiǎn)單,是最初主流的深層神經(jīng)網(wǎng)絡(luò)。
語(yǔ)音識(shí)別的特征提取需要首先對(duì)波形進(jìn)行加窗和分幀,然后再提取特征。訓(xùn)練 GMM 模型的輸入是單幀特征,DNN則一般采用多個(gè)相鄰幀拼接在一起作為輸入,這種方法使得語(yǔ)音信號(hào)更長(zhǎng)的結(jié)構(gòu)信息得以描述,研究表明,特征拼接輸入是DNN相比于GMM可以獲得大幅度性能提升的關(guān)鍵因素。由于說(shuō)話時(shí)的協(xié)同發(fā)音的影響,語(yǔ)音是一種各幀之間相關(guān)性很強(qiáng)的復(fù)雜時(shí)變信號(hào),正要說(shuō)的字的發(fā)音和前后好幾個(gè)字都有影響,并且影響的長(zhǎng)度隨著說(shuō)話內(nèi)容的不同而時(shí)變。雖然采用拼接幀的方式可以學(xué)到一定程度的上下文信息,但是由于DNN輸入的窗長(zhǎng)(即拼接的幀數(shù))是事先固定的,因此DNN的結(jié)構(gòu)只能學(xué)習(xí)到固定的輸入到輸入的映射關(guān)系,導(dǎo)致其對(duì)時(shí)序信息的更長(zhǎng)時(shí)相關(guān)性的建模靈活性不足。
遞歸神經(jīng)網(wǎng)絡(luò)在聲學(xué)模型中的應(yīng)用
語(yǔ)音信號(hào)具有明顯的協(xié)同發(fā)音現(xiàn)象,因此必須考慮長(zhǎng)時(shí)相關(guān)性。由于循環(huán)神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的長(zhǎng)時(shí)建模能力,使得 RNN也逐漸替代 DNN成為語(yǔ)音識(shí)別主流的建模方案。DNN 和 RNN 的網(wǎng)絡(luò)結(jié)構(gòu)如圖所示,RNN在隱層上增加了一個(gè)反饋連接,是其和DNN最大的不同。這意味著RNN 的隱層當(dāng)前時(shí)刻的輸入不但包括了來(lái)自上一層的輸出,還包括前一時(shí)刻的隱層輸出,這種循環(huán)反饋連接使得RNN原則上可以看到前面所有時(shí)刻的信息,這相當(dāng)于RNN具備了歷史記憶功能。對(duì)于語(yǔ)音這種時(shí)序信號(hào)來(lái)說(shuō),使用RNN建模顯得更加適合。
但是,傳統(tǒng)的 RNN 在訓(xùn)練過(guò)程中存在梯度消失的問(wèn)題,導(dǎo)致該模型難以訓(xùn)練。為了克服梯度消失問(wèn)題,有研究人員提出了長(zhǎng)短時(shí)記憶RNN。LSTM-RNN 使用輸入門、輸出門和遺忘門來(lái)控制信息流,使得梯度能在相對(duì)更長(zhǎng)的時(shí)間跨度內(nèi)穩(wěn)定地傳播。雙向LSTM-RNN (BLSTM-RNN)對(duì)當(dāng)前幀進(jìn)行處理時(shí),可以利用歷史的語(yǔ)音信息和未來(lái)的語(yǔ)音信息,從而容易進(jìn)行更加準(zhǔn)確的決策,因此也能取得比單向LSTM更好的性能提升。
盡管雙向LSTM-RNN的性能更好,但它并不適合實(shí)時(shí)系統(tǒng),由于要利用較長(zhǎng)時(shí)刻的未來(lái)信息,會(huì)使得該系統(tǒng)具有很大時(shí)延,主要用于一些離線語(yǔ)音識(shí)別任務(wù)。基于此,研究人員提出了延遲受控 BLSTM和行卷積 BLSTM 等模型結(jié)構(gòu),這些模型試圖構(gòu)建單向LSTM和BLSTM之間的折中:即前向LSTM保持不變,針對(duì)用來(lái)看未來(lái)信息的反向LSTM做了優(yōu)化。在LC-BLSTM結(jié)構(gòu)中,標(biāo)準(zhǔn)的反向LSTM被帶有最多N幀前瞻量的反向LSTM替代,而在行卷積模型中被集成了N幀前瞻量的行卷積替代。
基于FSMN的語(yǔ)音識(shí)別系統(tǒng)
目前國(guó)際上已經(jīng)有不少學(xué)術(shù)或工業(yè)機(jī)構(gòu)在進(jìn)行 RNN 架構(gòu)下的研究。目前效果最好的基于BLSTM-RNN 的語(yǔ)音識(shí)別系統(tǒng)存在時(shí)延過(guò)大的問(wèn)題,這對(duì)于實(shí)時(shí)的語(yǔ)音交互系統(tǒng)(如語(yǔ)音輸入法),并不合適。盡管可以通過(guò) LC-BLSTM 和行卷積BLSTM將BLSTM做到實(shí)時(shí)語(yǔ)音交互系統(tǒng),由于RNN具有比DNN更加復(fù)雜的結(jié)構(gòu),海量數(shù)據(jù)下的RNN模型訓(xùn)練需要耗費(fèi)大量的時(shí)間。最后,由于RNN對(duì)上下文相關(guān)性的擬合較強(qiáng),相對(duì)于DNN更容易陷入過(guò)擬合的問(wèn)題,容易因?yàn)橛?xùn)練數(shù)據(jù)的局部問(wèn)題而帶來(lái)額外的異常識(shí)別錯(cuò)誤。
為了解決以上問(wèn)題,科大訊飛結(jié)合傳統(tǒng)的DNN框架和RNN的特點(diǎn),研發(fā)出了一種名為前饋型序列記憶網(wǎng)絡(luò)的新框架,具體如圖所示。FSMN的結(jié)構(gòu)采用非循環(huán)的前饋結(jié)構(gòu),只需要180 ms的時(shí)延,就達(dá)到了和BLSTM-RNN相當(dāng)?shù)男Ч?/p>
FSMN 的結(jié)構(gòu)示意如圖所示,其主要是基于傳統(tǒng)DNN結(jié)構(gòu)的改進(jìn),在DNN的隱層旁增加了一個(gè)“記憶模塊”,這個(gè)記憶模塊用來(lái)存儲(chǔ)對(duì)判斷當(dāng)前語(yǔ)音幀有用的語(yǔ)音信號(hào)的歷史信息和未來(lái)信息。上圖畫出了記憶模塊左右各記憶N 幀語(yǔ)音信息的時(shí)序展開(kāi)結(jié)構(gòu)。需記憶的歷史和未來(lái)信息長(zhǎng)度N可根據(jù)實(shí)際任務(wù)的需要來(lái)調(diào)整。FSMN 記憶塊的記憶功能是使用前饋結(jié)構(gòu)實(shí)現(xiàn)的,這點(diǎn)有別于傳統(tǒng)的基于循環(huán)反饋的 RNN 模型。采用這種前饋結(jié)構(gòu)存儲(chǔ)信息有兩大好處:首先,傳統(tǒng)雙向RNN必須等待語(yǔ)音輸入結(jié)束才能對(duì)當(dāng)前語(yǔ)音幀進(jìn)行判斷,雙向FSMN對(duì)未來(lái)信息進(jìn)行記憶時(shí)只需要等待有限長(zhǎng)度的未來(lái)語(yǔ)音幀即可,這個(gè)優(yōu)點(diǎn)使得FSMN的時(shí)延是可控的。實(shí)驗(yàn)證明,使用雙向FSMN結(jié)構(gòu),時(shí)延控制在180 ms時(shí)就能取得和傳統(tǒng)雙向RNN相當(dāng)?shù)男Ч?;其次,傳統(tǒng)簡(jiǎn)單的 RNN 實(shí)際并不能記住無(wú)窮長(zhǎng)的歷史信息,而是只能記住有限長(zhǎng)的歷史信息,原因是其訓(xùn)練過(guò)程中存在梯度消失的問(wèn)題。然而 FSMN的記憶網(wǎng)絡(luò)完全基于前饋展開(kāi),在模型訓(xùn)練過(guò)程中,梯度則沿著記憶塊與隱層的連接權(quán)重往回傳給各個(gè)時(shí)刻,對(duì)判斷當(dāng)前語(yǔ)音幀的影響的信息通過(guò)這些連接權(quán)重來(lái)決定,而且這種梯度傳播是可訓(xùn)練的,并且在任何時(shí)刻都是常數(shù)衰減,以上的實(shí)現(xiàn)方式使得FSMN也具有了類似LSTM 的長(zhǎng)時(shí)記憶能力,這相當(dāng)于使用了一種更為簡(jiǎn)單的方式解決了傳統(tǒng) RNN 中的梯度消失問(wèn)題。另外,由于FSMN完全基于前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),也使得它的并行度更高,GPU計(jì)算能力可利用得更加充分,從而獲得效率更高的模型訓(xùn)練過(guò)程,并且FSMN結(jié)構(gòu)在穩(wěn)定性方面也表現(xiàn)得更加出色。
基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)
卷積神經(jīng)網(wǎng)絡(luò)的核心是卷積運(yùn)算(或卷積層),是另一種可以有效利用長(zhǎng)時(shí)上下文語(yǔ)境信息的模型。繼 DNN 在大詞匯量連續(xù)語(yǔ)音識(shí)別上的成功應(yīng)用之后,CNN 又在 DNN-HMM 混合模型架構(gòu)下被重新引入。重新引入CNN最初只是為了解決頻率軸的多變性來(lái)提升模型的穩(wěn)定性,因?yàn)樵摶旌夏P椭械?HMM 已經(jīng)有很強(qiáng)的處理語(yǔ)音識(shí)別中可變長(zhǎng)度話語(yǔ)問(wèn)題的能力。早期CNN-HMM模型僅使用了 1~2 個(gè)卷積層,然后和全連接 DNN層堆疊在一起。后來(lái),LSTM 等其他 RNN 層也被集成到了該模型中,從而形成了所謂的CNN-LSTM-DNN(CLDNN)架構(gòu)。
基于CNN-HMM框架的語(yǔ)音識(shí)別吸引了大量的研究者,但是始終鮮有重大突破,最基本的原因有兩個(gè):首先是他們?nèi)匀徊捎霉潭ㄩL(zhǎng)度的語(yǔ)音幀拼接作為輸入的傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)的思路,導(dǎo)致模型不能看到足夠的上下文信息;其次是他們采用的卷積層數(shù)很少,一般只有1~2層,把CNN視作一種特征提取器來(lái)使用,這樣的卷積網(wǎng)絡(luò)結(jié)構(gòu)表達(dá)能力十分有限。針對(duì)這些問(wèn)題,科大訊飛在2016年提出了一種全新的語(yǔ)音識(shí)別框架,稱為全序列卷積神經(jīng)網(wǎng)絡(luò)(deep fully convolutional neural network,DFCNN)。實(shí)驗(yàn)證明,DFCNN比 BLSTM 語(yǔ)音識(shí)別系統(tǒng)這個(gè)學(xué)術(shù)界和工業(yè)界最好的系統(tǒng)識(shí)別率提升了 15%以上。
如圖所示,DFCNN先對(duì)時(shí)域的語(yǔ)音信號(hào)進(jìn)行傅里葉變換得到語(yǔ)音的語(yǔ)譜圖,DFCNN直接將一句語(yǔ)音轉(zhuǎn)化成一張圖像作為輸入,輸出單元?jiǎng)t直接與最終的識(shí)別結(jié)果(比如音節(jié)或者漢字)相對(duì)應(yīng)。DFCNN的結(jié)構(gòu)中把時(shí)間和頻率作為圖像的兩個(gè)維度,通過(guò)較多的卷積層和池化(pooling)層的組合,實(shí)現(xiàn)對(duì)整句語(yǔ)音的建模。DFCNN的原理是把語(yǔ)譜圖看作帶有特定模式的圖像,而有經(jīng)驗(yàn)的語(yǔ)音學(xué)專家能夠從中看出里面說(shuō)的內(nèi)容。
為了理解 DFCNN 的優(yōu)勢(shì)所在,下面從輸入端、模型結(jié)構(gòu)和輸出端 3 個(gè)角度更具體地分析。首先,在輸入端,傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)的提取特征方式是在傅里葉變換后用各種類型的人工設(shè)計(jì)的濾波器,比如Log Mel-Filter Bank,造成在語(yǔ)音信號(hào)頻域,尤其是高頻區(qū)域的信息損失比較明顯。另外,傳統(tǒng)語(yǔ)音特征采用非常大的幀移來(lái)降低運(yùn)算量,導(dǎo)致時(shí)域上的信息會(huì)有損失,當(dāng)說(shuō)話人語(yǔ)速較快的時(shí)候,這個(gè)問(wèn)題表現(xiàn)得更為突出。而DFCNN將語(yǔ)譜圖作為輸入,避免了頻域和時(shí)域兩個(gè)維度的信息損失,具有天然的優(yōu)勢(shì)。其次,從模型結(jié)構(gòu)上來(lái)看,為了增強(qiáng) CNN 的表達(dá)能力, DFCNN 借鑒了在圖像識(shí)別中表現(xiàn)最好的網(wǎng)絡(luò)配置,與此同時(shí),為了保證 DFCNN 可以表達(dá)語(yǔ)音的長(zhǎng)時(shí)相關(guān)性,通過(guò)卷積池化層的累積,DFCNN能看到足夠長(zhǎng)的歷史和未來(lái)信息,有了這兩點(diǎn),和BLSTM的網(wǎng)絡(luò)結(jié)構(gòu)相比,DFCNN在頑健性上表現(xiàn)更加出色。最后,從輸出端來(lái)看,DFCNN比較靈活,可以方便地和其他建模方式融合,比如和連接時(shí)序分類模型方案結(jié)合,以實(shí)現(xiàn)整個(gè)模型的端到端聲學(xué)模型訓(xùn)練。DFCNN語(yǔ)音識(shí)別框架可以方便地和其他多個(gè)技術(shù)點(diǎn)結(jié)合,實(shí)驗(yàn)證明,在數(shù)萬(wàn)小時(shí)的中文語(yǔ)音識(shí)別任務(wù)上,和目前業(yè)界最好的語(yǔ)音識(shí)別框架 BLSTM-CTC 系統(tǒng)相比, DFCNN系統(tǒng)獲得了額外15%的性能提升。
大規(guī)模語(yǔ)音數(shù)據(jù)下神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練
相比于傳統(tǒng)的 GMM-HMM 系統(tǒng),基于DNN-HMM 語(yǔ)音識(shí)別系統(tǒng)取得了巨大的性能提升。但是DNN聲學(xué)模型的訓(xùn)練卻非常耗時(shí)。舉個(gè)例子,在一個(gè)配置為E5-2697 v4的CPU上進(jìn)行 2 萬(wàn)小時(shí)規(guī)模的語(yǔ)音數(shù)據(jù)的聲學(xué)模型訓(xùn)練,大概需要 116 天左右才能訓(xùn)練完。造成這種情況的潛在原因是將隨機(jī)梯度下降算法作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的基本算法,SGD算法收斂相對(duì)較慢,而且是一個(gè)串行算法,很難進(jìn)行并行化訓(xùn)練。而目前工業(yè)界主流的語(yǔ)音識(shí)別系統(tǒng)涉及的訓(xùn)練數(shù)據(jù)一般為幾千小時(shí)甚至幾萬(wàn)小時(shí)級(jí)別,因此,提高在大規(guī)模語(yǔ)音數(shù)據(jù)下深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度和訓(xùn)練效率,也成為了研究熱點(diǎn)和必須解決的問(wèn)題。
由于深度神經(jīng)網(wǎng)絡(luò)的模型參數(shù)非常稀疏,利用這個(gè)特點(diǎn),將深度神經(jīng)網(wǎng)絡(luò)模型中超過(guò) 80%的較小參數(shù)都設(shè)置為 0,幾乎沒(méi)有性能損失,同時(shí)模型尺寸大大減少,但是訓(xùn)練時(shí)間并沒(méi)有明顯減小,原因是參數(shù)稀疏性帶來(lái)的高度隨機(jī)內(nèi)存訪問(wèn)并沒(méi)有得到太多的優(yōu)化。進(jìn)一步地,在深度神經(jīng)網(wǎng)絡(luò)中,用兩個(gè)低秩矩陣的乘積表示權(quán)重矩陣,實(shí)現(xiàn)了30%~50%的效率提升。
過(guò)使用多個(gè)CPU或者GPU并行訓(xùn)練來(lái)解決神經(jīng)網(wǎng)絡(luò)訓(xùn)練效率是另外一種可行的方法。通常方式是:把訓(xùn)練數(shù)據(jù)分成許多小塊后并行地送到不同的機(jī)器來(lái)進(jìn)行矩陣運(yùn)算,從而實(shí)現(xiàn)并行訓(xùn)練。優(yōu)化方案是:在模型的每遍迭代中,先將訓(xùn)練數(shù)據(jù)分成N個(gè)完全不相交的子集,然后在每個(gè)子集中訓(xùn)練一個(gè)sub-MLP,最后把這些sub-MLP進(jìn)行合并網(wǎng)絡(luò)結(jié)合。為了進(jìn)一步提升并行效率,在上千個(gè)CPU核的計(jì)算集群實(shí)現(xiàn)了這種方式,深層網(wǎng)絡(luò)的訓(xùn)練主要是利用異步梯度下降算法。將異步梯度下降算法應(yīng)用到了多個(gè)GPU中。一種管道式的 BP 算法被提了出來(lái),該方法利用不同的GPU單元來(lái)計(jì)算神經(jīng)網(wǎng)絡(luò)中不同層,實(shí)現(xiàn)并行訓(xùn)練的效果。實(shí)驗(yàn)證明,相對(duì)使用單個(gè)GPU訓(xùn)練,該方法通過(guò)使用4個(gè)GPU實(shí)現(xiàn)了3.1倍左右的效率提升。然而,不同計(jì)算單元之間極其頻繁的數(shù)據(jù)傳遞成為該類方法提升訓(xùn)練效率的主要瓶頸。為此,為了更好地實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)并行訓(xùn)練,一種新的基于狀態(tài)聚類的多深層神經(jīng)網(wǎng)絡(luò)建模方法被提出,該方法先將訓(xùn)練數(shù)據(jù)在狀態(tài)層面進(jìn)行聚類,在狀態(tài)層面進(jìn)行不相交的子集劃分,使得不同計(jì)算單元神經(jīng)網(wǎng)絡(luò)之間的數(shù)據(jù)傳遞規(guī)模大幅度減小,從而實(shí)現(xiàn)每個(gè)神經(jīng)網(wǎng)絡(luò)完全獨(dú)立的并行訓(xùn)練。使用4塊GPU,在聚類數(shù)為4類的情況下,在SWB (SwitchBoard)數(shù)據(jù)集上的實(shí)驗(yàn)表明,這種狀態(tài)聚類的多神經(jīng)網(wǎng)絡(luò)方法取得了約4倍的訓(xùn)練效率提升。
深度學(xué)習(xí)理論除了在聲學(xué)模型建模上獲得了廣泛的應(yīng)用外,在語(yǔ)音識(shí)別系統(tǒng)另外的重要組件——語(yǔ)言模型上也得到了應(yīng)用。在深度神經(jīng)網(wǎng)絡(luò)普及之前,語(yǔ)音識(shí)別系統(tǒng)主要采用傳統(tǒng)的統(tǒng)計(jì)語(yǔ)言模型N-gram模型進(jìn)行建模。N-gram模型也具備明顯的優(yōu)點(diǎn),其結(jié)構(gòu)簡(jiǎn)單且訓(xùn)練效率很高,但是 N-gram 的模型參數(shù)會(huì)隨著階數(shù)和詞表的增大而指數(shù)級(jí)增長(zhǎng),導(dǎo)致無(wú)法使用更高的階數(shù),性能容易碰到瓶頸,在訓(xùn)練語(yǔ)料處于相對(duì)稀疏的狀態(tài)時(shí),可以借助降權(quán)(discounting)和回溯(backing-off)等成熟的平滑算法解決低頻詞或不可見(jiàn)詞的概率估計(jì)問(wèn)題,以獲得比較可靠的模型估計(jì)。
在20世紀(jì)初,一些淺層前饋神經(jīng)網(wǎng)絡(luò)被用于統(tǒng)計(jì)語(yǔ)言模型建模。神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型是一種連續(xù)空間語(yǔ)言模型,平滑的詞概率分布函數(shù)使得它對(duì)于訓(xùn)練語(yǔ)料中的低頻詞和不可見(jiàn)詞的概率估計(jì)更為頑健,具有更好的推廣性,在語(yǔ)音識(shí)別任務(wù)上也取得了顯著的效果。最近幾年,相關(guān)研究人員也將深層神經(jīng)網(wǎng)絡(luò)用于語(yǔ)言模型建模,并取得了進(jìn)一步的性能提升。
深度學(xué)習(xí)、大數(shù)據(jù)和云計(jì)算之間的關(guān)系
基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)在21世紀(jì)初走向舞臺(tái)的中央,并不只是由于深度學(xué)習(xí)類機(jī)器學(xué)習(xí)算法的進(jìn)步,而是大數(shù)據(jù)、云計(jì)算和深度學(xué)習(xí)這3個(gè)要素相互促進(jìn)的結(jié)果。
不同于之前 GMM-HMM 語(yǔ)音識(shí)別框架表達(dá)能力有限、效果對(duì)于大規(guī)模數(shù)據(jù)易飽和的情況,深度學(xué)習(xí)框架所具備的多層非線性變換的深層結(jié)構(gòu),則具有更強(qiáng)的表達(dá)與建模能力,使得語(yǔ)音識(shí)別模型對(duì)復(fù)雜數(shù)據(jù)的挖掘和學(xué)習(xí)能力得到了空前的提升,使得更大規(guī)模的海量數(shù)據(jù)的作用得以充分的發(fā)揮。大數(shù)據(jù)就像奶粉一樣,“哺育”了深度學(xué)習(xí)算法,讓深度學(xué)習(xí)算法變得越來(lái)越強(qiáng)大。
隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)技術(shù)和產(chǎn)品的普及,更重要的是采用云計(jì)算的方式,使得多種類型的海量數(shù)據(jù)得以在云端匯集。而對(duì)大規(guī)模的數(shù)據(jù)的運(yùn)算的要求則又顯著提升了對(duì)于云計(jì)算方式的依賴,因此云計(jì)算成為了本次深度學(xué)習(xí)革命的關(guān)鍵推手之一。深度學(xué)習(xí)框架在云端的部署,則顯著增強(qiáng)了云計(jì)算的能力。
正是由于深度學(xué)習(xí)、大數(shù)據(jù)和云計(jì)算三者的相互促進(jìn),才成就了語(yǔ)音技術(shù)的進(jìn)步,成就了人工智能的浪潮。
-
語(yǔ)音識(shí)別
+關(guān)注
關(guān)注
38文章
1742瀏覽量
112747 -
人工智能
+關(guān)注
關(guān)注
1792文章
47504瀏覽量
239221
原文標(biāo)題:離開(kāi)語(yǔ)音技術(shù)的人工智能都是耍流氓
文章出處:【微信號(hào):WW_CGQJS,微信公眾號(hào):傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論