首頁(yè): 電子電路圖,電子技術(shù)資料網(wǎng)站首頁(yè)

電子資料下載: 電子資料下載頻道 -- 為電子工程師提供激發(fā)創(chuàng)新靈感的新方案、新的參考設(shè)計(jì)、新的設(shè)計(jì)構(gòu)想等可下載的電子資料！

電子技術(shù)應(yīng)用: 電子技術(shù)應(yīng)用頻道 -- 為電子工程師提供電子產(chǎn)品設(shè)計(jì)所需的技術(shù)分析、設(shè)計(jì)技巧、設(shè)計(jì)工具、測(cè)試工具等技術(shù)文章！

電子元器件: 專業(yè)的電子元器件平臺(tái) -- 及時(shí)發(fā)布大量最新IC、分立器件、模組等電子元器件產(chǎn)品信息！

電子電路圖: 電路圖頻道 -- 提供電子電路圖,原理圖,汽車電路圖,手機(jī)電路圖,功放電路圖,電源電路圖等電路圖紙

電子技術(shù)論壇: 構(gòu)建電子工程師交流的平臺(tái) -- 在交流中進(jìn)一步學(xué)習(xí)設(shè)計(jì)技巧、規(guī)劃技術(shù)人生、提升自我價(jià)值！

源碼下載: 源碼下載頻道; uCOS編程 C/C++語(yǔ)言編程 Symbian編程 Linux/uClinux/Unix編程 Windows編程 matlab源程序 php源碼下載 asp.net源碼下載 java源碼下載匯編編程驅(qū)動(dòng)程序單片機(jī)編程數(shù)值算法/人工智能

您的位置：電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

語(yǔ)音識(shí)別系統(tǒng)最新實(shí)踐

大?。?/span>0.5 MB 人氣： 2017-09-30 需要積分：1

推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論（0）

前往下載地址

分享到:

標(biāo)簽：語(yǔ)音識(shí)別系統(tǒng)(10380)科大訊飛(59934)

　　語(yǔ)音作為最自然便捷的交流方式，一直是人機(jī)通信和交互最重要的研究領(lǐng)域之一。自動(dòng)語(yǔ)音識(shí)別（Automatic Speech Recognition，ASR）是實(shí)現(xiàn)人機(jī)交互尤為關(guān)鍵的技術(shù)，其所要解決的問題是讓計(jì)算機(jī)能夠“聽懂”人類的語(yǔ)音，將語(yǔ)音中傳化為文本。自動(dòng)語(yǔ)音識(shí)別技術(shù)經(jīng)過(guò)幾十年的發(fā)展已經(jīng)取得了顯著的成效。近年來(lái)，越來(lái)越多的語(yǔ)音識(shí)別智能軟件和應(yīng)用走人了大家的日常生活，蘋果的Siri、微軟的小娜、科大訊飛的語(yǔ)音輸入法和靈犀等都是其中的典型代表。本文將以科大訊飛的視角介紹語(yǔ)音識(shí)別的發(fā)展歷程和最新技術(shù)進(jìn)展。

　　我們首先簡(jiǎn)要回顧語(yǔ)音識(shí)別的發(fā)展歷史，然后介紹目前主流的基于深度神經(jīng)網(wǎng)路的語(yǔ)音識(shí)別系統(tǒng)，最后重點(diǎn)介紹科大訊飛語(yǔ)音識(shí)別系統(tǒng)的最新進(jìn)展。

　　語(yǔ)音識(shí)別關(guān)鍵突破回顧

　　語(yǔ)音識(shí)別的研究起源于上世紀(jì)50年代，當(dāng)時(shí)的主要研究者是貝爾實(shí)驗(yàn)室。早期的語(yǔ)音識(shí)別系統(tǒng)是簡(jiǎn)單的孤立詞識(shí)別系統(tǒng)，例如1952年貝爾實(shí)驗(yàn)室實(shí)現(xiàn)了十個(gè)英文數(shù)字識(shí)別系統(tǒng)。從上世紀(jì)60年代開始，CMU的Reddy開始進(jìn)行連續(xù)語(yǔ)音識(shí)別的開創(chuàng)性工作。但是這期間語(yǔ)音識(shí)別的技術(shù)進(jìn)展非常緩慢，以至于1969年貝爾實(shí)驗(yàn)室的約翰·皮爾斯（John Pierce）在一封公開信中將語(yǔ)音識(shí)別比作“將水轉(zhuǎn)化為汽油、從海里提取金子、治療癌癥”等幾乎不可能實(shí)現(xiàn)的事情。上世紀(jì)70年代，計(jì)算機(jī)性能的大幅度提升，以及模式識(shí)別基礎(chǔ)研究的發(fā)展，例如碼本生成算法（LBG）和線性預(yù)測(cè)編碼（LPC）的出現(xiàn)，促進(jìn)了語(yǔ)音識(shí)別的發(fā)展。這個(gè)時(shí)期美國(guó)國(guó)防部高級(jí)研究計(jì)劃署（DARPA）介入語(yǔ)音領(lǐng)域，設(shè)立了語(yǔ)音理解研究計(jì)劃，研究計(jì)劃包括BBN、CMU、SRI、IBM等眾多頂尖的研究機(jī)構(gòu)。IBM、貝爾實(shí)驗(yàn)室相繼推出了實(shí)時(shí)的PC端孤立詞識(shí)別系統(tǒng)。上世紀(jì)80年代是語(yǔ)音識(shí)別快速發(fā)展的時(shí)期，其中兩個(gè)關(guān)鍵技術(shù)是隱馬爾科夫模型（HMM）的理論和應(yīng)用趨于完善以及NGram語(yǔ)言模型的應(yīng)用。此時(shí)語(yǔ)音識(shí)別開始從孤立詞識(shí)別系統(tǒng)向大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)發(fā)展。例如，李開復(fù)研發(fā)的SPHINX系統(tǒng)，是基于統(tǒng)計(jì)學(xué)原理開發(fā)的第一個(gè)“非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)”。其核心框架就是用隱馬爾科模型對(duì)語(yǔ)音的時(shí)序進(jìn)行建模，而用高斯混合模型（GMM）對(duì)語(yǔ)音的觀察概率進(jìn)行建模?；贕MM-HMM的語(yǔ)音識(shí)別框架在此后很長(zhǎng)一段時(shí)間內(nèi)一直是語(yǔ)音識(shí)別系統(tǒng)的主導(dǎo)框架。上世紀(jì)90年代是語(yǔ)音識(shí)別基本成熟的時(shí)期，主要進(jìn)展是語(yǔ)音識(shí)別聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則和模型自適應(yīng)方法的提出。這個(gè)時(shí)期劍橋語(yǔ)音識(shí)別組推出的HTK工具包對(duì)于促進(jìn)語(yǔ)音識(shí)別的發(fā)展起到了很大的推動(dòng)作用。此后語(yǔ)音識(shí)別發(fā)展很緩慢，主流的框架GMM-HMM趨于穩(wěn)定，但是識(shí)別效果離實(shí)用化還相差甚遠(yuǎn)，語(yǔ)音識(shí)別的研究陷入了瓶頸。

　　關(guān)鍵突破起始于2006年。這一年辛頓（Hinton）提出深度置信網(wǎng)絡(luò)（DBN），促使了深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Network，DNN）研究的復(fù)蘇，掀起了深度學(xué)習(xí)的熱潮。2009年，辛頓以及他的學(xué)生默罕默德（D. Mohamed）將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音的聲學(xué)建模，在小詞匯量連續(xù)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)TIMIT上獲得成功。2011年，微軟研究院俞棟、鄧力等發(fā)表深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別上的應(yīng)用文章，在大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)上獲得突破。從此基于GMM-HMM的語(yǔ)音識(shí)別框架被打破，大量研究人員開始轉(zhuǎn)向基于DNN-HMM的語(yǔ)音識(shí)別系統(tǒng)的研究。

　　基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)

　　基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)主要采用如圖1所示的框架。相比傳統(tǒng)的基于GMM-HMM的語(yǔ)音識(shí)別系統(tǒng)，其最大的改變是采用深度神經(jīng)網(wǎng)絡(luò)替換GMM模型對(duì)語(yǔ)音的觀察概率進(jìn)行建模。最初主流的深度神經(jīng)網(wǎng)絡(luò)是最簡(jiǎn)單的前饋型深度神經(jīng)網(wǎng)絡(luò)（Feedforward Deep Neural Network，F(xiàn)DNN）。DNN相比GMM的優(yōu)勢(shì)在于：1. 使用DNN估計(jì)HMM的狀態(tài)的后驗(yàn)概率分布不需要對(duì)語(yǔ)音數(shù)據(jù)分布進(jìn)行假設(shè)；2. DNN的輸入特征可以是多種特征的融合，包括離散或者連續(xù)的；3. DNN可以利用相鄰的語(yǔ)音幀所包含的結(jié)構(gòu)信息。

　　語(yǔ)音識(shí)別系統(tǒng)最新實(shí)踐

　　圖1 基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)框架

非常好我支持^.^

(0) 0%

不好我反對(duì)

(0) 0%

下載地址

不能下載？請(qǐng)通知我們

語(yǔ)音識(shí)別系統(tǒng)最新實(shí)踐下載

普通下載普通下載

用戶評(píng)論

發(fā)表評(píng)論即可獲得積分！ 詳見積分規(guī)則

發(fā)表評(píng)論

用戶評(píng)論

評(píng)價(jià):好評(píng)中評(píng)差評(píng)

發(fā)表評(píng)論，獲取積分！請(qǐng)遵守相關(guān)規(guī)定！

注冊(cè)會(huì)員

游客:

語(yǔ)音識(shí)別系統(tǒng)最新實(shí)踐

下載地址

語(yǔ)音識(shí)別系統(tǒng)最新實(shí)踐下載

相關(guān)電子資料下載

用戶評(píng)論

發(fā)表評(píng)論

分享你我的電子世界

實(shí)用電子設(shè)計(jì)資料下載

源碼下載排行

熱門詞