語音識(shí)別是機(jī)器自動(dòng)語音識(shí)別(automatic speech recognition by machine)的簡(jiǎn)稱。
語音識(shí)別技術(shù)關(guān)系到多學(xué)科的研究領(lǐng)域,不同領(lǐng)域中的研究成果都對(duì)語音識(shí)別的發(fā)展作出了貢獻(xiàn)。讓機(jī)器識(shí)別語音的困難在某種程度上就像一個(gè)外語不好的人聽外圍人講話一樣,它與說話人、說話速度、說話內(nèi)容、環(huán)境條件有關(guān)。語音信號(hào)本身的特點(diǎn)造成了語音識(shí)別的困難。這些特點(diǎn)包括多變性、動(dòng)態(tài)性、瞬時(shí)性和連續(xù)性等。
計(jì)算機(jī)語音識(shí)別的過程與人對(duì)語音識(shí)別處理過程基本上是一致的。目前主流的語音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論。一個(gè)完整的語音識(shí)別系統(tǒng)可大致分為三部分:
?。?)語音特征提取:其目的是從語音波形中提取出隨時(shí)間變化的語音特征序列。
(2)聲學(xué)模型與模式匹配(識(shí)別算法):聲學(xué)模型通常將獲取的語音特征通過學(xué)習(xí)算法產(chǎn)生。在識(shí)別時(shí)將輸入的語音特征與聲學(xué)模型(模式)進(jìn)行匹配、比較,得到最佳的識(shí)別結(jié)果。
?。?)語言模型與語言處理:語言模型包括由識(shí)別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語言模型,語言處理可以進(jìn)行語法、語義分析。對(duì)小詞表語音識(shí)別系統(tǒng),通常不需要語言處理部分。
聲學(xué)模型是識(shí)別系統(tǒng)的底層模型,并且是語音識(shí)別系統(tǒng)中最關(guān)系的一部分。聲學(xué)模型的目的是提供一種有效的方法,計(jì)算語音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)與語言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音字模型或音素模型)對(duì)語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識(shí)別率以及靈活性有較大的影響。必須根據(jù)不同的語言的特點(diǎn)、識(shí)別系統(tǒng)詞匯量的大小決定識(shí)別單元的大小。 由于有了種種困難,語音識(shí)別技術(shù)通常根據(jù)使用中的限制性要求,構(gòu)建成不同類型的系統(tǒng),通常包括三類。其一為限制用戶的說話方式,這又可以分為孤立詞語音識(shí)別系統(tǒng)(isolate-word speech recognition system)、連接詞語音識(shí)別系統(tǒng)(connected-words speech recognition system)、連續(xù)語音識(shí)別系統(tǒng)(continue speech recopnition system)和即興口語語音識(shí)別系統(tǒng)(spontaneous speech recognition system)。其二為限制用戶的用詞范圍。第三種為限制系統(tǒng)的用戶對(duì)象。 采用語速作為系統(tǒng)的第二信息渠道,一旦系統(tǒng)跟蹤到了目標(biāo)的語還,在協(xié)助語音識(shí)別的同時(shí)還能夠有效地排除與語音信息不同步的外界噪聲,因此系統(tǒng)能夠獲得更好的識(shí)別性能。
? ? ? ? 圖像處理算法設(shè)計(jì)
語言模型對(duì)中、大詞匯量的語音識(shí)別系統(tǒng)特別重要。當(dāng)分類發(fā)生錯(cuò)誤時(shí)可以根據(jù)語言學(xué)模型、語法結(jié)構(gòu)、語義學(xué)進(jìn)行判斷糾正,特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。語言學(xué)理論包括語義結(jié)構(gòu)、語法規(guī)則、語言的數(shù)學(xué)描述模型等有關(guān)方面。目前比較成功的語言模型通常是采用統(tǒng)計(jì)語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令的語言模型。語法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識(shí)別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識(shí)別。
語音識(shí)別過程實(shí)際上是一種認(rèn)識(shí)過程。就像人們聽語音時(shí),并不把語音和語言的語法結(jié)構(gòu)、語義結(jié)構(gòu)分開。因?yàn)楫?dāng)語音發(fā)音模糊時(shí)人們可以用這些和知識(shí)來指導(dǎo)對(duì)語言的理解過程,但是對(duì)機(jī)器來說,識(shí)別系統(tǒng)也要利用這些知識(shí),只是如何有效地描述這些語法和語義還有困難:
?。?)小詞匯量語音識(shí)別系統(tǒng):包括幾十個(gè)詞的語音識(shí)別系統(tǒng)。
?。?)中等詞匯量的語音識(shí)別系統(tǒng):通常包括幾百個(gè)詞至上千個(gè)詞的識(shí)別系統(tǒng)。
?。?)大詞匯量語音識(shí)別系統(tǒng):通常包括幾千至幾萬個(gè)詞的語音識(shí)別系統(tǒng)。
這些不同的限制也確定了語音識(shí)別系統(tǒng)的困難度。
1 增加圖像識(shí)別設(shè)計(jì)的目的
如今的語音識(shí)別技術(shù)正在逐漸成熟,許多語音識(shí)別技術(shù)都已經(jīng)能夠達(dá)到很高的識(shí)別率了,不過當(dāng)識(shí)別率到了一定的程度后,再提高就很困難,此時(shí)需要采用其他技術(shù)來協(xié)助語音的識(shí)別。
目前的語音識(shí)別系統(tǒng)由于采用單一傳感器(聲音傳感器)進(jìn)行工作,在進(jìn)行語音識(shí)別時(shí),不可能對(duì)捕獲的語音信息進(jìn)行細(xì)分,只能采用定速率跟蹤識(shí)別,將語音信息與系統(tǒng)庫中的模板進(jìn)行匹配判斷。如果捕獲信息的速率與存儲(chǔ)在系統(tǒng)庫中的模板相關(guān)不多,則能正常工作,否則將會(huì)出現(xiàn)誤判。然而現(xiàn)實(shí)生活中,人們說話不可能總保持相同的速率,而是不斷變化的,這勢(shì)必造成了語音識(shí)別系統(tǒng)的誤差增多,以致降低語音識(shí)別系統(tǒng)的實(shí)用性。
人們?cè)谶M(jìn)行語音交流時(shí),在捕獲語音信息的同時(shí),也在獲取其他的信息以幫助理解,例如表情、神態(tài)等信息。如果得不到相關(guān)信息,人們相互之間也會(huì)產(chǎn)生誤解,例如當(dāng)兩個(gè)人在相隔較遠(yuǎn)距離時(shí),由于不能清楚對(duì)方的表情、神態(tài),經(jīng)常會(huì)出現(xiàn)理解錯(cuò)誤的情況發(fā)生。可見使用單一的信息渠道的確會(huì)增加理解難度,因此有必要考慮增加信息渠道來解決這個(gè)問題。這就是增加圖像識(shí)別功能的原因。
對(duì)于語音識(shí)別系統(tǒng),如果能像人一樣判斷語言對(duì)象的喜、怒、哀、樂,當(dāng)然是最好的,但這勢(shì)必大大增加圖像識(shí)別的工作量,甚至超過語音識(shí)別的成本,不太合理。并且,由于技術(shù)的原因,還不能使機(jī)器有像人一樣的視覺能力,要讓機(jī)器能夠準(zhǔn)確識(shí)別出人的各種表情還達(dá)不到,所以此種方案是不可取的。進(jìn)一步分析知道,語音識(shí)別系統(tǒng)受語速的影響是很大的。人在正常講話時(shí),嘴的開合狀態(tài)都是大同小異的,如果讓機(jī)器只對(duì)嘴的開合兩種情況進(jìn)行判斷和實(shí)時(shí)跟蹤,得出講話人的語速信息,是能夠做到的。所以僅僅需要機(jī)器識(shí)別出人說話的速度,以此來調(diào)整語音識(shí)別的匹配速度,從而適合語音韻律,自然有利于系統(tǒng)的語音識(shí)別能力,提高識(shí)別的準(zhǔn)確性。通過語速對(duì)語音識(shí)別系統(tǒng)的幫助,將為語音系統(tǒng)提供另一條實(shí)用的信息渠道。
2 實(shí)現(xiàn)的技術(shù)及方法
2.1 系統(tǒng)總體設(shè)計(jì)概述
語音系統(tǒng)采集說話人(語言對(duì)象)的兩路信息,一路由聲音傳感器取得,一路由攝像設(shè)備取得。攝像設(shè)備取得人的嘴型變化后,將之轉(zhuǎn)化為語速信息送到語音識(shí)別器與采集到的語音進(jìn)行匹配識(shí)別,自動(dòng)調(diào)節(jié)識(shí)別速度,更好地完成語音識(shí)別工作。系統(tǒng)的工作流程如圖1。
2.2 輔助圖像識(shí)別設(shè)計(jì)
捕獲語言對(duì)象的說話速率是保證整個(gè)系統(tǒng)良好工作的關(guān)鍵。為了實(shí)現(xiàn)此目的,使用基于機(jī)器視覺的人嘴部狀態(tài)檢測(cè)方法來設(shè)計(jì)。由于對(duì)圖像的識(shí)別精度要求不高,可以選擇灰度圖像以提高運(yùn)算速度。在速度允許的情況下,彩色圖像的識(shí)別精度會(huì)更高。
2.2.1 流程分析
整個(gè)輔助圖像識(shí)別設(shè)計(jì)的目的就是通過機(jī)器視覺進(jìn)行圖像采集、圖像處理,提取出說話人的語速信息供語音系統(tǒng)使用。
以灰度圖像為例,其圖像處理過程如圖2。
對(duì)于彩色圖像,特征量會(huì)更多一些,也就更復(fù)雜一些,但其基本步驟都是先完成圖像數(shù)字化,再進(jìn)行圖像特片提取,最后進(jìn)行圖像識(shí)別和理解。
當(dāng)完成圖像處理后,比較模塊將這一幀圖像與上一幀圖像的數(shù)據(jù)進(jìn)行對(duì)比,判斷出變化,從而統(tǒng)計(jì)出語速信息,最后輸出給語音識(shí)別器進(jìn)行匹配工作。
(1)圖像分割
經(jīng)過對(duì)人臉RGB像素的分析,發(fā)現(xiàn)人臉圖像中的R、G兩分量符合二維高斯分布。因此,可通過這兩個(gè)分量確定人臉的位置。在人臉定位的基礎(chǔ)上,根據(jù)人的嘴部處于人臉下半部分的特片,比較容易確定出嘴部的大致位置,它為嘴部精確定位提供了基本條件,如圖3所示。
(2)圖像特征的提取
根據(jù)系統(tǒng)要求,灰度圖像可以滿足需要,但由于嘴唇與皮膚的灰度差別不大,而且灰度信息更容量受到光照條件、人臉的運(yùn)動(dòng)和旋轉(zhuǎn)變化等影響,使人臉圖像中嘴唇區(qū)域邊緣不明顯,特別是當(dāng)嘴唇內(nèi)部的陰影區(qū)域與牙齒交替出現(xiàn)時(shí),嘴唇的邊緣變得更加模糊,所以利用唇色和膚色的灰度及邊緣信息分割不能達(dá)到很高的準(zhǔn)確度。若要提高對(duì)嘴部狀況的識(shí)別準(zhǔn)確度,可以利用彩色信息來對(duì)人嘴的形狀、位置進(jìn)行確定。
研究發(fā)現(xiàn),嘴唇的主要顏色特征是唇色相對(duì)膚色顏色較紅,而且歸一化RGB顏色對(duì)光照、人臉運(yùn)動(dòng)和旋轉(zhuǎn)具有不變性。因此利用顏色信息,采用模式分類技術(shù)分割嘴唇區(qū)域,可以克服灰度圖像本身固有的缺點(diǎn)。由于Fisher線性分類器能夠最大限度地分開兩類,且其學(xué)習(xí)是離線處理,減少了計(jì)算量,因此可采用Fisher線性分類器進(jìn)行嘴唇區(qū)域分割。
人嘴在說話與正常情況下的外形有明顯的區(qū)別。說話時(shí)嘴部張開較大,而正常情況下,嘴部基本閉合(圖4)。因此,可以利用這些特征進(jìn)行嘴部狀態(tài)的檢測(cè)。研究中發(fā)現(xiàn),嘴部區(qū)域的最大寬度Wmax、最大高度Hmax能夠表征嘴部的張開程度,應(yīng)取為特征值;上嘴唇與下嘴唇之間的高度Hmin在說話不說話時(shí)也有明顯不同,應(yīng)取為特征值。將以上三個(gè)特征值組成一組向量,即可描述出不同狀態(tài)下的嘴部幾何特片,如圖5所示。
將獲得的能夠描述人的嘴部區(qū)域幾何形狀特征參數(shù)組成一個(gè)特征向量Zui,即可作為下一步判別分類的輸入向量:Zui=(Wmax,Hmax,Hmin)。
在進(jìn)行識(shí)別時(shí)只要確定兩個(gè)狀態(tài)“開”、“合”即可。在實(shí)際中由于發(fā)音時(shí)不同的語音會(huì)導(dǎo)致嘴的開合程度不一,所以對(duì)“開”(Hmin》0)的區(qū)分會(huì)很多種情況,必然會(huì)極大地增加運(yùn)算存儲(chǔ)量。相對(duì)而言,嘴的“閉合”狀態(tài)一般只有一種模式(Hmin=0),因此可以只確定說話人嘴的“閉合”狀態(tài),其他狀態(tài)都判為“開”,這樣將方便處理。
?。?)圖像識(shí)別理解
由于對(duì)識(shí)別精度要求不高,既可以采用傳統(tǒng)的統(tǒng)計(jì)模式識(shí)別方法,也可以采用較熱門的神經(jīng)網(wǎng)絡(luò)識(shí)別方法;但由于系統(tǒng)對(duì)實(shí)時(shí)要求較高,而神經(jīng)網(wǎng)絡(luò)識(shí)別方法運(yùn)行速度成問題,因此不建議采用神經(jīng)網(wǎng)絡(luò)識(shí)別方法。
2.3 語速信息的提取
選用合適的捕獲頻率不斷采集說話人的圖像,用當(dāng)前幀的數(shù)據(jù)與上一幀數(shù)據(jù)進(jìn)行比較,根據(jù)其變化的頻率就可以推算出語速信息。實(shí)際情況中,所求的語速信息不需要太精確就能夠達(dá)到一般要求。
3 應(yīng)用展望
語音識(shí)別是一種賦能技術(shù),現(xiàn)有的很多人機(jī)交互界面都可能通過補(bǔ)充語音識(shí)別功能而得到改善。語音識(shí)別技術(shù)可以把費(fèi)腦、費(fèi)力、費(fèi)時(shí)的機(jī)器操作變成一件很容易且有趣味性的事情,在許多“手忙”、“手不能用”、“手所不能及”、“懶得動(dòng)手”的場(chǎng)景中,包括像駕駛室、一些危險(xiǎn)的工業(yè)場(chǎng)合、家電控制等方面,高識(shí)別率的語音識(shí)別系統(tǒng)將會(huì)更加方便人的工作和生活。
由于知識(shí)層次和知識(shí)領(lǐng)域的差異,現(xiàn)實(shí)生活中有相當(dāng)一部分人很難享受到現(xiàn)代化生活帶來的便利,包括信息服務(wù)和其他各類先進(jìn)設(shè)備可提供的幫助。高識(shí)別率語音識(shí)別技術(shù)有助于改善這種情況,使社會(huì)各個(gè)階層更多的人享受到更多的社會(huì)信息資源和現(xiàn)代化服務(wù),提高整個(gè)社會(huì)的信息化程度和現(xiàn)代化速度。
高識(shí)別率語音識(shí)別技術(shù)還將推出機(jī)器人智能技術(shù)的發(fā)展,由于機(jī)器人本來就要配置視覺系統(tǒng),本方案很容易實(shí)現(xiàn),提高了人與機(jī)器交互的能力。另外高識(shí)別率語音識(shí)別技術(shù)在語音錄入系統(tǒng)、會(huì)議實(shí)時(shí)記錄及同聲翻譯、記者采訪設(shè)備等方向有著廣闊的應(yīng)用前景。
語音識(shí)別技術(shù)關(guān)系到多學(xué)科的研究領(lǐng)域,不同領(lǐng)域中的研究成果都對(duì)語音識(shí)別的發(fā)展作出了貢獻(xiàn)。讓機(jī)器識(shí)別語音的困難在某種程度上就像一個(gè)外語不好的人聽外國人講話一樣,它與說話人、說話速度、說話內(nèi)容、環(huán)境條件有關(guān)。語音信號(hào)本身的特點(diǎn)造成了語音識(shí)別的困難。
這些特點(diǎn)包括多變性、動(dòng)態(tài)性、瞬時(shí)性和連續(xù)性等。
計(jì)算機(jī)語音識(shí)別的過程與人對(duì)語音識(shí)別處理過程基本上是一致的。目前主流的語音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論。一個(gè)芫整的語音識(shí)別系統(tǒng)可大致分為三部分:語音特征提取其目的是從語音波形中提取出隨時(shí)間變化的語音特征序列。
聲學(xué)模型與模式匹配(識(shí)別算法):聲學(xué)模型通常將獲取的語音特征通過學(xué)習(xí)算法產(chǎn)生。在識(shí)別時(shí)將輸入的語音特征與聲學(xué)模型(模式)進(jìn)行匹配、比較,得到最佳的識(shí)別結(jié)果。
語言模型與語言處理語言模型包括由識(shí)別語音命令構(gòu)成的語法網(wǎng)緒或由統(tǒng)計(jì)方法構(gòu)成的語言模型,語言處理可以進(jìn)行語法、語義分析。對(duì)小詞表語音識(shí)別系統(tǒng),通常不需要語言處理部分。
聲學(xué)模型是識(shí)別系統(tǒng)的底層模型,并且是語音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型的目的是提供一種有效的方法,計(jì)算語音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)與語言發(fā)音特點(diǎn)密切相關(guān)。
聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型)對(duì)語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識(shí)別率以及靈活性有較大的影響。必須根據(jù)不同語言的特點(diǎn)、識(shí)別系統(tǒng)詞匯量的大小決定識(shí)別單元的大小。
語言模型對(duì)中、大詞匯量的語音識(shí)別系統(tǒng)特別重要。當(dāng)分類發(fā)生錯(cuò)誤時(shí)可以根據(jù)語言學(xué)模型、語法結(jié)構(gòu)、語義學(xué)進(jìn)行判斷糾正,特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。語言學(xué)理論包括語義結(jié)構(gòu)、語法規(guī)則、語言的數(shù)學(xué)描述模型等有關(guān)方面。目前比較成功的語言模型通常是采用統(tǒng)計(jì)語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令的語言模型。語法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識(shí)別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識(shí)別。
語音識(shí)別過程實(shí)際上是一種認(rèn)識(shí)過程。就像人們聽語音時(shí),并不把語音和語言的語法結(jié)構(gòu)、語義結(jié)構(gòu)分開。
因?yàn)楫?dāng)語音發(fā)音模糊時(shí)人們可以用這些知識(shí)來指導(dǎo)對(duì)語言的理解過程,但是對(duì)機(jī)器來說,識(shí)別系統(tǒng)也要利用這些知識(shí),只是如何有效地描述這些語法和語義還有困難:小詞匯量語音識(shí)別系統(tǒng)包括幾十個(gè)詞的語音識(shí)別系統(tǒng)。
中等詞匯量的語音識(shí)別系統(tǒng)通常包括幾百個(gè)詞至上干個(gè)詞的識(shí)別系統(tǒng)。
大詞匯量語音識(shí)別系統(tǒng)通常包括幾干至幾萬個(gè)詞的語音識(shí)別系統(tǒng)。
這些不同的限制也確定了語音識(shí)別系統(tǒng)的困難度。
由于有了種種困難,語音識(shí)別技術(shù)通常根據(jù)使用中的限制性要求,構(gòu)建成不同類型的系統(tǒng),通常包括三類。
其一為限制用戶的說話方式,這又可以分為孤立詞語音音識(shí)別系統(tǒng)(connected-wordsspeechrecognitionsystem)、連續(xù)語音識(shí)別系統(tǒng)(continuespeechrecognitionsystem)和即興口語語音識(shí)別系統(tǒng)(spontaneousspeechrecognitionsystem)。其二為限制用戶的用詞范圍。第三種為限制系統(tǒng)的用戶對(duì)象。
1增加圖像識(shí)別設(shè)計(jì)的目的如今的語音識(shí)別技術(shù)正在逐漸成熟,許多語音識(shí)別技術(shù)都已經(jīng)能夠達(dá)到很高的識(shí)別率了,不過當(dāng)識(shí)別率到了一定的程度后,再提高就很困難,此時(shí)需要采用其他技術(shù)來協(xié)助語音的識(shí)別。
目前的語音識(shí)別系統(tǒng)由于采用單一傳感器(聲音傳感器)進(jìn)行工作,在進(jìn)行語音識(shí)別時(shí),不可能對(duì)捕獲的語音信息進(jìn)行細(xì)分,只能采用定速率跟蹤識(shí)別,將語音信息與系統(tǒng)庫中的模板進(jìn)行匹配判斷。如果捕獲信息的速率與存儲(chǔ)在系統(tǒng)庫中的模板相差不多,則能正常工作,否則將會(huì)出現(xiàn)誤判。然而現(xiàn)實(shí)生活中,人們說話不可能總保持相同的速率,而是不斷變化的,這勢(shì)必造成了語音識(shí)別系統(tǒng)的誤差增多,以致降低語音識(shí)別系統(tǒng)的實(shí)用性。
人們?cè)谶M(jìn)行語言交流時(shí),在捕獲語音信息的同時(shí),也在獲取其他的信息以幫助理解,例如表情、神態(tài)等信息。如果得不到相關(guān)信息,人們相互之間也會(huì)產(chǎn)生誤解,例如當(dāng)兩個(gè)人在相隔較遠(yuǎn)距離時(shí),由于不能清楚對(duì)方的表情、神態(tài),經(jīng)常會(huì)出現(xiàn)理解錯(cuò)誤的情況發(fā)生??梢娛褂脝我坏男畔⑶赖拇_會(huì)增加理解難度,因此有必要考慮增加信息渠道來解決這個(gè)問題。這就是增加圖像識(shí)別功能的原因。
對(duì)于語音識(shí)別系統(tǒng),如果能像人一樣判斷語言對(duì)象的喜、怒、哀、樂,當(dāng)然是最好的,但這勢(shì)必大大增加圖像識(shí)別的工作量,甚至超過語音識(shí)別的成本,不太合理。
并且,由于技術(shù)的原因,還不能使機(jī)器有像人一樣的視覺能力,要讓機(jī)器能夠準(zhǔn)確識(shí)別出人的各種表情還達(dá)不到,所以此種方案是不可取的。進(jìn)一步分析知道,語音識(shí)別系統(tǒng)受語速的影響是很大的。人在正常講話時(shí),嘴的開合狀態(tài)都是大同小異的,如果讓機(jī)器只對(duì)嘴的開合兩種情況進(jìn)行判斷和實(shí)時(shí)跟蹤,得出講話人的語速信息,是能夠做到的。所以僅僅需要機(jī)器識(shí)別出人說話的速度,以此來調(diào)整語音識(shí)別的匹配速度,從而適合語音韻律,自然有利于系統(tǒng)的語音識(shí)別能力,提高識(shí)別的準(zhǔn)確性。通過語速對(duì)語音識(shí)別系統(tǒng)的幫助,將為語音系統(tǒng)提供另一條實(shí)用的信息渠道。
采用語速作為系統(tǒng)的第二信息渠道,一旦系統(tǒng)跟蹤到了目標(biāo)的語速,在協(xié)助語音識(shí)別的同時(shí)還能夠有效地排除與語音信息不同步的外界噪聲,因此系統(tǒng)能夠獲得更好的識(shí)別性能。
2實(shí)現(xiàn)的技術(shù)及方法2.1系統(tǒng)總體設(shè)計(jì)概述語音系統(tǒng)采集說話人(語言對(duì)象)的兩路信息,一路由聲音傳感器取得,一路由攝像設(shè)備取得。攝像設(shè)備取得人的嘴型變化后,將之轉(zhuǎn)化為語速信息送到語音識(shí)別器與采集到的語音進(jìn)行匹配識(shí)別,自動(dòng)調(diào)節(jié)識(shí)別速度,更好地芫成語音識(shí)別工作。系統(tǒng)的工作流程如。
2.2輔助圖像識(shí)別設(shè)計(jì)捕獲語言對(duì)象的說話速率是保證整個(gè)系統(tǒng)良好工作的關(guān)鍵。為了實(shí)現(xiàn)此目的,使用基于機(jī)器視覺的人嘴部狀態(tài)檢測(cè)方法來設(shè)計(jì)。由于對(duì)圖像的識(shí)別精度要求不高,可以選擇灰度圖像以提高運(yùn)算速度。在速度允許的情況下,彩色圖像的識(shí)別精度會(huì)更高。
流程分析整個(gè)輔助圖像識(shí)別設(shè)計(jì)的目的就是通過機(jī)器視覺進(jìn)行圖像采集、圖像處理,提取出說話人的語速信息供語音系統(tǒng)使用。
以灰度圖像為例,其圖像處理過程如。
采樣(像索mxn)*》量化(處理灰度G)*完成圖像數(shù)字化y進(jìn)一步抽象及描述 |分類、識(shí)別及理解圖特征*田像的特征提取特征空間圄2灰度圄像的處理流程對(duì)于彩色圖像,特征量會(huì)更多一些,也就更復(fù)雜一些,但其基本步驟都是先芫成圖像數(shù)字化,再進(jìn)行圖像特征提取,最后進(jìn)行圖像識(shí)別和理解。
當(dāng)芫成圖像處理后,比較模塊將這一幀圖像與上一幀圖像的數(shù)據(jù)進(jìn)行對(duì)比,判斷出變化,從而統(tǒng)計(jì)出語速信息,最后輸出給語音識(shí)別器進(jìn)行匹配工作。
圖像處理算法設(shè)計(jì)經(jīng)過對(duì)人臉RGB像素的分析,發(fā)現(xiàn)人臉圖像中的R、G兩分量符合二維高斯分布。因此,可通過這兩個(gè)分量確定人臉的位置。在人臉定位的基礎(chǔ)上,根據(jù)人的嘴部處于人臉下半部分的特征,比較容易確定出嘴部的大致位置,它為嘴部精確定位提供了基本條件,如所示。
根據(jù)系統(tǒng)要求,灰度圖像可以滿足需要,但由于嘴唇與皮膚的灰度差別不大,而且灰度信息更容易受到光照條件、人臉的運(yùn)動(dòng)和旋轉(zhuǎn)變化等影響,使人臉圖像中嘴唇區(qū)域邊緣不明顯,特別是當(dāng)嘴唇內(nèi)部的陰影區(qū)域與牙齒交替出現(xiàn)時(shí),嘴唇的邊緣變得更加模糊。所以利用唇色和膚色的灰度及邊緣信息分割不能達(dá)到很高的準(zhǔn)確度。若要提高對(duì)嘴部狀況的識(shí)別準(zhǔn)確度,可以利用彩色信息來對(duì)人嘴的形狀、位置進(jìn)行確定。
研究發(fā)現(xiàn),嘴唇的主要顏色特征是唇色相對(duì)膚色顏色較紅,而且歸一化RGB顏色對(duì)光照、人臉運(yùn)動(dòng)和旋轉(zhuǎn)具有不變性。因此利用顏色信息,采用模式分類技術(shù)分割嘴唇區(qū)域,可以克服灰度圖像本身固有的缺點(diǎn)。由于Fisher線性分類器能夠最大限度地分開兩類,且其學(xué)習(xí)是離線處理,減少了計(jì)算量,因此可采用Fisher線性分類器進(jìn)行嘴唇區(qū)域分割。
人嘴在說話與正常情況下的外形有明顯的區(qū)別。說話時(shí)嘴部張開較大,而正常情況下,嘴部基本閉合()。因此,可以利用這些特征進(jìn)行嘴部狀態(tài)的檢測(cè)。研究中發(fā)現(xiàn),嘴部區(qū)域的最大寬度WU、最大高度Hmx能夠表征嘴部的張開程度,應(yīng)取為特征值;上嘴唇與下嘴唇之間的高度H在說話和不說話時(shí)也有明顯不同,應(yīng)取為特征值。將以上三個(gè)特征值組成一組向量,即可描述出不同狀態(tài)下的嘴部幾何特征,如所示。
將獲得的能夠描述人的嘴部區(qū)域幾何形狀特征參數(shù)組成一個(gè)特征向量Zu,即可作為下一步判別分類的在進(jìn)行識(shí)別時(shí)只要確定兩個(gè)狀態(tài)“開”、“合”即可。
在實(shí)際中由于發(fā)音時(shí)不同的語音會(huì)導(dǎo)致嘴的開合程度不一,所以對(duì)“開”(氏》0)的區(qū)分會(huì)很多種情況,必然會(huì)極大地增加運(yùn)算存儲(chǔ)量。相對(duì)而言,嘴的“閉合”狀態(tài)一般只有一種模式(HmO),因此可以只確定說話人嘴的“閉合”狀態(tài),其他狀態(tài)都判為“開”,這樣將方便處理。
由于對(duì)識(shí)別精度要求不高,既可以采用傳統(tǒng)的統(tǒng)計(jì)模式識(shí)別方法,也可以采用較熱門的神經(jīng)網(wǎng)緒識(shí)別方法;但由于系統(tǒng)對(duì)實(shí)時(shí)要求較高,而神經(jīng)網(wǎng)緒識(shí)別方法運(yùn)行速度成問題,因此不建議采用神經(jīng)網(wǎng)緒識(shí)別方法。
2.3語速信息的提取選用合適的捕獲頻率不斷采集說話人的圖像,用當(dāng)前幀的數(shù)據(jù)與上一幀數(shù)據(jù)進(jìn)行比較,根據(jù)其變化的頻率就可以推算出語速信息。實(shí)際情況中,所求的語速信息不需要太精確就能夠達(dá)到一般要求。
3應(yīng)用展望語音識(shí)別是一種賦能技術(shù),現(xiàn)有的很多人機(jī)交互界面都可能通過補(bǔ)充語音識(shí)別功能而得到改善。語音識(shí)別技術(shù)可以把費(fèi)腦、費(fèi)力、費(fèi)時(shí)的機(jī)器操作變成一件很容易且有趣味性的事情,在許多“手忙”、“手不能用”、“手所不能及”、“懶得動(dòng)手”的場(chǎng)景中,包括像駕駛室、一些危險(xiǎn)的工業(yè)場(chǎng)合、家電控制等方面,高識(shí)別率的語音識(shí)別系統(tǒng)將會(huì)更加方便人的工作和生活。
由于知識(shí)層次和知識(shí)領(lǐng)域的差異,現(xiàn)實(shí)生活中有相當(dāng)一部分人很難享受到現(xiàn)代化生活帶來的便利,包括信息服務(wù)和其他各類先進(jìn)設(shè)備可提供的幫助。高識(shí)別率語音識(shí)別技術(shù)有助于改善這種情況,使社會(huì)各個(gè)階層更多的人享受到更多的社會(huì)信息資源和現(xiàn)代化服務(wù),提高整個(gè)社會(huì)的信息化程度和現(xiàn)代化速度。
高識(shí)別率語音識(shí)別技術(shù)還將推動(dòng)機(jī)器人智能化技術(shù)的發(fā)展。由于機(jī)器人本來就要配置視覺系統(tǒng),本方案很容易實(shí)現(xiàn),提高了人與機(jī)器交互的能力。另外高識(shí)別率語音識(shí)別技術(shù)在語音錄入系統(tǒng)、會(huì)議實(shí)時(shí)記錄及同聲翻譯、記者采訪設(shè)備等方向有著廣闊的應(yīng)用前景。
評(píng)論
查看更多