一、語(yǔ)音識(shí)別技術(shù)定義
語(yǔ)音識(shí)別技術(shù),也被稱為自動(dòng)語(yǔ)音識(shí)別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說(shuō)話人識(shí)別及說(shuō)話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的說(shuō)話人而非其中所包含的詞匯內(nèi)容。
語(yǔ)音識(shí)別技術(shù)的應(yīng)用包括語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、語(yǔ)音文檔檢索、簡(jiǎn)單的聽(tīng)寫數(shù)據(jù)錄入等。語(yǔ)音識(shí)別技術(shù)與其他自然語(yǔ)言處理技術(shù)如機(jī)器翻譯及語(yǔ)音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語(yǔ)音到語(yǔ)音的翻譯。
二、語(yǔ)音識(shí)別技術(shù)原理
語(yǔ)音識(shí)別系統(tǒng)提示客戶在新的場(chǎng)合使用新的口令密碼,這樣使用者不需要記住固定的口令,系統(tǒng)也不會(huì)被錄音欺騙。文本相關(guān)的聲音識(shí)別方法可以分為動(dòng)態(tài)時(shí)間伸縮或隱馬爾可夫模型方法。文本無(wú)關(guān)聲音識(shí)別已經(jīng)被研究很長(zhǎng)時(shí)間了,不一致環(huán)境造成的性能下降是應(yīng)用中的一個(gè)很大的障礙。
其工作原理:
動(dòng)態(tài)時(shí)間伸縮方法使用瞬間的、變動(dòng)倒頻。1963年Bogert et al出版了《回聲的時(shí)序倒頻分析》。通過(guò)交換字母順序,他們用一個(gè)含義廣泛的詞匯定義了一個(gè)新的信號(hào)處理技術(shù),倒頻譜的計(jì)算通常使用快速傅立葉變換。
從1975年起,隱馬爾可夫模型變得很流行。運(yùn)用隱馬爾可夫模型的方法,頻譜特征的統(tǒng)計(jì)變差得以測(cè)量。文本無(wú)關(guān)語(yǔ)音識(shí)別方法的例子有平均頻譜法、矢量量化法和多變量自回歸法。
平均頻譜法使用有利的倒頻距離,語(yǔ)音頻譜中的音位影響被平均頻譜去除。使用矢量量化法,語(yǔ)者的一套短期訓(xùn)練的特征向量可以直接用來(lái)描繪語(yǔ)者的本質(zhì)特征。但是,當(dāng)訓(xùn)練向量的數(shù)量很大時(shí),這種直接的描繪是不切實(shí)際的,因?yàn)榇鎯?chǔ)和計(jì)算的量變得離奇的大。所以嘗試用矢量量化法去尋找有效的方法來(lái)壓縮訓(xùn)練數(shù)據(jù)。Montacie et al在倒頻向量的時(shí)序中應(yīng)用多變量自回歸模式來(lái)確定語(yǔ)者特征,取得了很好的效果。
想騙過(guò)語(yǔ)音識(shí)別系統(tǒng)要有高質(zhì)量的錄音機(jī),那不是很容易買到的。一般的錄音機(jī)不能記錄聲音的完整頻譜,錄音系統(tǒng)的質(zhì)量損失也必須是非常低的。對(duì)于大多數(shù)的語(yǔ)音識(shí)別系統(tǒng),模仿的聲音都不會(huì)成功。用語(yǔ)音識(shí)別來(lái)辨認(rèn)身份是非常復(fù)雜的,所以語(yǔ)音識(shí)別系統(tǒng)會(huì)結(jié)合個(gè)人身份號(hào)碼識(shí)別或芯片卡。
語(yǔ)音識(shí)別系統(tǒng)得益于廉價(jià)的硬件設(shè)備,大多數(shù)的計(jì)算機(jī)都有聲卡和麥克風(fēng),也很容易使用。但語(yǔ)音識(shí)別還是有一些缺點(diǎn)的。語(yǔ)音隨時(shí)間而變化,所以必須使用生物識(shí)別模板。語(yǔ)音也會(huì)由于傷風(fēng)、嗓音沙啞、情緒壓力或是青春期而變化。語(yǔ)音識(shí)別系統(tǒng)比指紋識(shí)別系統(tǒng)有著較高的誤識(shí)率,因?yàn)槿藗兊穆曇舨幌裰讣y那樣獨(dú)特和唯一。對(duì)快速傅立葉變換計(jì)算來(lái)說(shuō),系統(tǒng)需要協(xié)同處理器和比指紋系統(tǒng)更多的效能。目前語(yǔ)音識(shí)別系統(tǒng)不適合移動(dòng)應(yīng)用或以電池為電源的系統(tǒng)。
三、語(yǔ)音識(shí)別的技術(shù)實(shí)現(xiàn)方式
語(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面,其中,最基礎(chǔ)的就是語(yǔ)音識(shí)別單元的選取。
?。?)語(yǔ)音識(shí)別單元的選取。語(yǔ)音識(shí)別研究的基礎(chǔ)是選擇語(yǔ)音識(shí)別單元。語(yǔ)音識(shí)別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種語(yǔ)音識(shí)別單元由具體研究任務(wù)的類型決定:
單詞(句)單元在中小詞匯語(yǔ)音識(shí)別系統(tǒng)中應(yīng)用廣泛,但由于模型庫(kù)過(guò)于龐大,模型匹配算法復(fù)雜,實(shí)時(shí)性不強(qiáng),所以不適合大詞匯系統(tǒng);
音節(jié)單元主要應(yīng)用于漢語(yǔ)語(yǔ)音識(shí)別,因?yàn)闈h語(yǔ)是單音節(jié)結(jié)構(gòu)的語(yǔ)言,雖然有大約1300個(gè)音節(jié),但無(wú)調(diào)音節(jié)共408個(gè),相對(duì)較少,所以音節(jié)單元在中、大詞匯量的漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)上是可行的。
音素單元之前曾廣泛應(yīng)用于英語(yǔ)語(yǔ)音識(shí)別,也越來(lái)越多的應(yīng)用于中、大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)中。原因在于漢語(yǔ)音節(jié)僅由22個(gè)聲母和28個(gè)韻母構(gòu)成,把聲母細(xì)化,雖然增加了模型數(shù)量,但是提高了易混淆音節(jié)的區(qū)分能力
?。?)特征參數(shù)提取技術(shù)。特征提取就是對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理,把豐富的語(yǔ)音信息中的冗余信息去除,獲得對(duì)語(yǔ)音識(shí)別有用的信息。這是一個(gè)對(duì)語(yǔ)音信號(hào)進(jìn)行信息壓縮的過(guò)程,目前經(jīng)常采用的特征參數(shù)提取技術(shù)是線性預(yù)測(cè)(LP)分析技術(shù)?;贚P技術(shù)提取的倒譜參數(shù)再加上Mel參數(shù)和基于感知線性預(yù)測(cè)(PLP)分析提取的感知線性預(yù)測(cè)倒譜對(duì)人耳處理聲音的模擬,進(jìn)一步提高了語(yǔ)音識(shí)別系統(tǒng)的性能。
?。?)模式匹配及模型訓(xùn)練技術(shù)。早期的語(yǔ)音識(shí)別應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)是動(dòng)態(tài)時(shí)間歸正技術(shù)(DTW),它在孤立詞語(yǔ)音識(shí)別中獲得了良好性能,但是由于對(duì)大詞匯量以及連續(xù)語(yǔ)音識(shí)別的不準(zhǔn)確,目前已經(jīng)被隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(luò)(ANN)所取代。
四、語(yǔ)音識(shí)別遇到的困難
目前,語(yǔ)音識(shí)別研究工作進(jìn)展緩慢,困難具體表現(xiàn)在:
?。ㄒ唬┱Z(yǔ)音識(shí)別系統(tǒng)對(duì)環(huán)境敏感,采集到的語(yǔ)音訓(xùn)練系統(tǒng)只能應(yīng)用于與之對(duì)應(yīng)的環(huán)境,而且當(dāng)用戶輸入錯(cuò)誤時(shí)不能正確響應(yīng),應(yīng)用起來(lái)相對(duì)困難;
?。ǘ┍仨毑扇⌒碌男绿?hào)處理方法來(lái)處理人在高噪聲環(huán)境下的發(fā)音變化的問(wèn)題;(三)語(yǔ)言模型、語(yǔ)法及詞法模型在中、大詞匯量連續(xù)語(yǔ)音識(shí)別中無(wú)法正確、合理的運(yùn)用,需要有效地利用語(yǔ)言學(xué)、心理學(xué)及生理學(xué)等方面的研究成果;現(xiàn)階段的科學(xué)技術(shù)對(duì)人類生理學(xué)諸如聽(tīng)覺(jué)系統(tǒng)分析理解功能、大腦神經(jīng)系統(tǒng)的控制功能等還不夠,更無(wú)法應(yīng)用于語(yǔ)音識(shí)別;語(yǔ)音識(shí)別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)向商品的轉(zhuǎn)化過(guò)程中還有許多具體細(xì)節(jié)技術(shù)問(wèn)題需要解決。
五、語(yǔ)音識(shí)別技術(shù)的發(fā)展?fàn)顩r
1.語(yǔ)音識(shí)別技術(shù)在國(guó)際的發(fā)展
早在三四十年前,美國(guó)的一些大學(xué)和實(shí)驗(yàn)室就開始了語(yǔ)音識(shí)別技術(shù)的研究,50年代的AT& T Bell實(shí)驗(yàn)室研發(fā)的Audry系統(tǒng)第一個(gè)實(shí)現(xiàn)了可識(shí)別十個(gè)英文數(shù)字。60和70年代,提出了線性預(yù)測(cè)分析技術(shù)(LP)等相關(guān)理論并深入研究,創(chuàng)造出可以實(shí)現(xiàn)特定人孤立語(yǔ)音識(shí)別系統(tǒng);80年代和90年代是語(yǔ)音識(shí)別技術(shù)應(yīng)用研究方向的高潮,HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)的成功應(yīng)用,使得語(yǔ)音識(shí)別系統(tǒng)的性能比以往更優(yōu)異;伴隨著多媒體時(shí)代的來(lái)臨,微軟,Apple等著名公司都研發(fā)出相當(dāng)成功的商業(yè)應(yīng)用語(yǔ)音識(shí)別系統(tǒng),比如,Apple的Siri系統(tǒng),微軟的Phone Query (電話語(yǔ)音識(shí)別)引擎等。
2.語(yǔ)音識(shí)別技術(shù)在國(guó)內(nèi)的發(fā)展
我國(guó)的語(yǔ)音識(shí)別研究工作雖然起步較晚,但由于國(guó)家的重視,研究工作進(jìn)展順利,相關(guān)研究緊跟國(guó)際水平。由于中國(guó)有不可忽視的龐大市場(chǎng),國(guó)外對(duì)中國(guó)的語(yǔ)音識(shí)別技術(shù)也非常重視,漢語(yǔ)語(yǔ)音語(yǔ)義的特殊性也使得中文語(yǔ)音識(shí)別技術(shù)的研究更具有挑戰(zhàn)。但是,國(guó)內(nèi)研究機(jī)構(gòu)在進(jìn)行理論研究的同時(shí),應(yīng)注重語(yǔ)音識(shí)別系統(tǒng)在商業(yè)中的應(yīng)用,加快從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化。
現(xiàn)如今,許多用戶已經(jīng)能享受到語(yǔ)音識(shí)別技術(shù)帶來(lái)的方便,比如智能手機(jī)的語(yǔ)音操作等。但是,這與實(shí)現(xiàn)真正的人機(jī)交流還有相當(dāng)遙遠(yuǎn)的距離。目前,計(jì)算機(jī)對(duì)用戶語(yǔ)音的識(shí)別程度不高,人機(jī)交互上還存在一定的問(wèn)題,語(yǔ)音識(shí)別技術(shù)還有很長(zhǎng)的一段路要走,必須取得突破性的進(jìn)展,才能做到更好的商業(yè)應(yīng)用,這也是未來(lái)語(yǔ)音識(shí)別技術(shù)的發(fā)展方向。
六、語(yǔ)音識(shí)別技術(shù)的發(fā)展趨勢(shì)
1.進(jìn)一步提高可靠性
目前語(yǔ)音識(shí)別系統(tǒng)很難做到排除各種聲學(xué)環(huán)境因素的影響,而人類語(yǔ)言在日常生活中的隨意性和不確定性給語(yǔ)音識(shí)別系統(tǒng)造成極大的識(shí)別困難。所以,要應(yīng)用現(xiàn)代技術(shù)智能化語(yǔ)音識(shí)別系統(tǒng),以達(dá)到更好的識(shí)別效果;
2.增加詞匯量
目前語(yǔ)音識(shí)別系統(tǒng)使用的聲學(xué)模型和語(yǔ)音模型過(guò)于局限,需要通過(guò)改進(jìn)系統(tǒng)建模方法、提高搜索算法的效率來(lái)做到詞匯量無(wú)限制和多重語(yǔ)言混合,減少詞匯量對(duì)語(yǔ)音識(shí)別系統(tǒng)的限制;
3.微型化并降低成本
語(yǔ)音識(shí)別系統(tǒng)在商業(yè)上的用途相當(dāng)廣泛,利用先進(jìn)的微電子技術(shù),將具有先進(jìn)功能和性能的語(yǔ)音識(shí)別應(yīng)用系統(tǒng)固化到更加微小的芯片或模塊上,可以縮減成本,更方便的推廣和使用。語(yǔ)音識(shí)別系統(tǒng)和微電子芯片技術(shù)的發(fā)展將引領(lǐng)信息技術(shù)革命到一個(gè)新的臺(tái)階。語(yǔ)音識(shí)別系統(tǒng)使人溝通更加自由,使人可以方便地享受到更多的社會(huì)信息資源和現(xiàn)代化服務(wù)。這必然會(huì)成為語(yǔ)音識(shí)別技術(shù)研究和應(yīng)用的重要發(fā)展趨勢(shì)。
七、語(yǔ)音識(shí)別技術(shù)的前景和應(yīng)用
在電話與通信系統(tǒng)中,智能語(yǔ)音接口正在把電話機(jī)從一個(gè)單純的服務(wù)工具變成為一個(gè)服務(wù)的“提供者”和生活“伙伴”;使用電話與通信網(wǎng)絡(luò),人們可以通 過(guò)語(yǔ)音命令方便地從遠(yuǎn)端的數(shù)據(jù)庫(kù)系統(tǒng)中查詢與提取有關(guān)的信息;隨著計(jì)算機(jī)的小型化,鍵盤已經(jīng)成為移動(dòng)平臺(tái)的一個(gè)很大障礙,想象一下如果手機(jī)僅僅只有一個(gè)手 表那么大,再用鍵盤進(jìn)行撥號(hào)操作已經(jīng)是不可能的。語(yǔ)音識(shí)別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)與語(yǔ)音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤, 通過(guò)語(yǔ)音命令進(jìn)行操作。語(yǔ)音技術(shù)的應(yīng)用已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)。
語(yǔ)音識(shí)別技術(shù)發(fā)展到今天,特別是中小詞匯量非特定人語(yǔ)音識(shí)別系統(tǒng)識(shí)別精度已經(jīng)大于98%,對(duì)特定人語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度就更高。這些技術(shù)已經(jīng)能 夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展,這些復(fù)雜的語(yǔ)音識(shí)別系統(tǒng)也已經(jīng)完全可以制成專用芯片,大量生產(chǎn)。在西方經(jīng)濟(jì)發(fā)達(dá)國(guó)家,大量的語(yǔ)音識(shí) 別產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)和服務(wù)領(lǐng)域。一些用戶交機(jī)、電話機(jī)、手機(jī)已經(jīng)包含了語(yǔ)音識(shí)別撥號(hào)功能,還有語(yǔ)音記事本、語(yǔ)音智能玩具等產(chǎn)品也包括語(yǔ)音識(shí)別與語(yǔ)音合成功 能。人們可以通過(guò)電話網(wǎng)絡(luò)用語(yǔ)音識(shí)別口語(yǔ)對(duì)話系統(tǒng)查詢有關(guān)的機(jī)票、旅游、銀行信息,并且取得很好的結(jié)果。調(diào)查統(tǒng)計(jì)表明多達(dá)85%以上的人對(duì)語(yǔ)音識(shí)別的信息 查詢服務(wù)系統(tǒng)的性能表示滿意。
可以預(yù)測(cè)在近五到十年內(nèi),語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用將更加廣泛。各種各樣的語(yǔ)音識(shí)別系統(tǒng)產(chǎn)品將出現(xiàn)在市場(chǎng)上。人們也將調(diào)整自己的說(shuō)話方式以適應(yīng)各種各樣 的識(shí)別系統(tǒng)。在短期內(nèi)還不可能造出具有和人相比擬的語(yǔ)音識(shí)別系統(tǒng),要建成這樣一個(gè)系統(tǒng)仍然是人類面臨的一個(gè)大的挑戰(zhàn),我們只能一步步朝著改進(jìn)語(yǔ)音識(shí)別系統(tǒng) 的方向一步步地前進(jìn)。至于什么時(shí)候可以建立一個(gè)像人一樣完善的語(yǔ)音識(shí)別系統(tǒng)則是很難預(yù)測(cè)的。就像在60年代,誰(shuí)又能預(yù)測(cè)今天超大規(guī)模集成電路技術(shù)會(huì)對(duì)我們 的社會(huì)產(chǎn)生這么大的影響。
評(píng)論
查看更多