蝴蝶传媒黄片,国产亚洲精品综合

語(yǔ)音識(shí)別是以語(yǔ)音為研究對(duì)象，通過(guò)語(yǔ)音信號(hào)處理和模式識(shí)別讓機(jī)器自動(dòng)識(shí)別和理解人類口述的語(yǔ)言。

語(yǔ)音識(shí)別技術(shù)歷史發(fā)展進(jìn)程

語(yǔ)音識(shí)別的研究可以追溯到20世紀(jì)50年代AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng)，它是第一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)。

但真正取得實(shí)質(zhì)性進(jìn)展，并將它作為一個(gè)重要的課題開展研究則是在60年代末70年代初。計(jì)算機(jī)技術(shù)的發(fā)展為語(yǔ)音識(shí)別的實(shí)現(xiàn)提供了硬件和軟件的可能，語(yǔ)音信號(hào)線性預(yù)測(cè)編碼（LPC）技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整（DTW）技術(shù)的提出，有效解決了語(yǔ)音信號(hào)的特征提取和不等長(zhǎng)匹配問(wèn)題。這一時(shí)期語(yǔ)音識(shí)別主要基于模板匹配原理，研究的領(lǐng)域局限在特定人，小詞匯表的孤立詞識(shí)別，實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)；同時(shí)提出了矢量量化（VQ）和隱馬爾可夫模型（HMM）理論。

80年代HMM和ANN在語(yǔ)音識(shí)別中成功應(yīng)用。李開復(fù)實(shí)現(xiàn)了第一個(gè)基于HMM的大詞匯量語(yǔ)音識(shí)別系統(tǒng)Sphinx。90年代隨著多媒體時(shí)代的來(lái)臨，大量企業(yè)開始投入巨資語(yǔ)音識(shí)別系統(tǒng)逐漸從實(shí)驗(yàn)室走向?qū)嵱谩?0年代以來(lái)大數(shù)據(jù)、漣漪效應(yīng)和深度神經(jīng)網(wǎng)絡(luò)帶來(lái)了語(yǔ)音識(shí)別爆發(fā)。

語(yǔ)音識(shí)別的過(guò)程

首先是聲音的輸入，輸入的音頻可以是實(shí)時(shí)的來(lái)自于麥克風(fēng)，也可以來(lái)自于現(xiàn)成的音頻文件。然后是音頻信號(hào)的預(yù)處理，包括降噪、回聲消除、端點(diǎn)檢查和模數(shù)轉(zhuǎn)換等等。特征提取，就是從音頻信號(hào)中提取出對(duì)識(shí)別有用的信息，將這些信息拿到聲學(xué)模型中去匹配，會(huì)得到這些音頻信號(hào)的發(fā)音信息，比如這里例子中的“科大訊飛”四個(gè)字的發(fā)音信息。然后把這些發(fā)音信息拿到語(yǔ)言模型中匹配，找出最大概率的發(fā)這四個(gè)音的漢字。這樣一個(gè)識(shí)別的過(guò)程就完成了。

這過(guò)程中比較核心的部分就是聲學(xué)模型和語(yǔ)言模型的匹配和處理，HMM（隱馬爾科夫模型）和深度神經(jīng)網(wǎng)絡(luò)就是在這里發(fā)揮作用的。

由于HMM只需要少量的數(shù)據(jù)就能訓(xùn)練出一個(gè)可用的模型，所以在上世界80、90年代，HMM技術(shù)在語(yǔ)音識(shí)別領(lǐng)域幾乎是處于統(tǒng)治地位的，直到移動(dòng)互聯(lián)網(wǎng)還有大數(shù)據(jù)技術(shù)的爆發(fā)，數(shù)據(jù)的來(lái)源已經(jīng)完全不是問(wèn)題的情況下，深度神經(jīng)網(wǎng)絡(luò)才逐漸讓HMM退居二線。下面我們以HMM為例，講解一下它在語(yǔ)音識(shí)別中是如何發(fā)揮作用的。

HMM淺析

首先和大家分享一個(gè)我在網(wǎng)上看到的關(guān)于異地戀的故事：小明有個(gè)女朋友在北京上學(xué)。

我們來(lái)給出一些假設(shè)條件，比如女朋友只有購(gòu)物散步和宅家里這三種活動(dòng)（這些叫可觀察到的狀態(tài)），天氣也只有多云晴天和下雨三種（這些叫隱藏的狀態(tài)，就是小明無(wú)法直接觀察到的狀態(tài)），如果第一天是多云的情況下，第二天還是多云的概率是0.5、晴天的概率0.3、下雨的概率0.2；再比如今天是晴天的情況下，女朋友去購(gòu)物的概率是0.5，去散步的概率0.3，宅家里的概率0.2。那么所有上述的假設(shè)條件合在一起其實(shí)就形成了一個(gè)模型，這個(gè)模型就叫做HMM模型。

這三個(gè)問(wèn)題在很早以前就有很多算法大師給出了解法，也就是說(shuō)這些看起來(lái)很難解的問(wèn)題對(duì)計(jì)算機(jī)來(lái)說(shuō)都很快解出來(lái)。

那么這些和語(yǔ)音識(shí)別到底有什么關(guān)系？我將第二個(gè)問(wèn)題和第三個(gè)問(wèn)題抽象一下。

大家看這張PPT，左邊這個(gè)部分就對(duì)應(yīng)剛剛的第二個(gè)問(wèn)題：已知模型參數(shù)和女朋友的活動(dòng)序列（就是可觀察狀態(tài)鏈），來(lái)求最大概率的隱藏狀態(tài)鏈（也就是這三天天氣的變化序列）。

而語(yǔ)音識(shí)別也是已知一個(gè)HMM和一段我們可觀察到的波形，來(lái)求這段音頻包含的最大概率的隱藏狀態(tài)，這里隱藏狀態(tài)鏈指的就是識(shí)別結(jié)果中的文字。

對(duì)于第三個(gè)問(wèn)題，由于缺少了一個(gè)已知的HMM模型，所以我們需要先利用已知的歷史數(shù)據(jù)來(lái)訓(xùn)練一個(gè)可用的模型，然后再來(lái)求識(shí)別結(jié)果。

同樣一個(gè)模型，同樣一套模型參數(shù)，各個(gè)狀態(tài)轉(zhuǎn)化和映射概率都沒(méi)有變，我們把可觀察狀態(tài)換成語(yǔ)音識(shí)別的輸入波形（或者說(shuō)是波形特征），把隱藏狀態(tài)換成語(yǔ)音識(shí)別的輸出（也就是文字結(jié)果），就會(huì)發(fā)現(xiàn)這個(gè)HMM用來(lái)做語(yǔ)音識(shí)別簡(jiǎn)直太合適啦。

比如這里的例子，這樣三個(gè)連續(xù)的波形隱含的文字到底是“是十四”還是“四十四”，我們只需要分別把它們的概率算出來(lái)，哪個(gè)概率大我們就認(rèn)為是哪個(gè)結(jié)果。對(duì)于HMM模型未知的情況下，我們可以利用帶標(biāo)注的數(shù)據(jù)按照鮑姆-韋爾奇算法訓(xùn)練一個(gè)就可以了，足夠的數(shù)據(jù)就能訓(xùn)練出趨于完美的模型。

注意，這個(gè)例子中我們并沒(méi)有區(qū)分聲學(xué)模型和語(yǔ)言模型，而是將兩者放在一起抽象出來(lái)一個(gè)大的模型，將波形直接映射成文字，而省去類似拼音發(fā)音的中間結(jié)果。事實(shí)上HMM也的確是既可以做聲學(xué)模型，也可以做語(yǔ)言模型。

訊飛開放平臺(tái)語(yǔ)音識(shí)別

本節(jié)公開課說(shuō)的我們平臺(tái)的語(yǔ)音識(shí)別是專指語(yǔ)音聽寫的功能，就是將語(yǔ)音轉(zhuǎn)化成文字的功能，而和識(shí)別相關(guān)的命令詞識(shí)別和語(yǔ)義理解，會(huì)在后面的課程中為大家講解。

個(gè)性化識(shí)別指的是語(yǔ)音識(shí)別系統(tǒng)具備自動(dòng)學(xué)習(xí)并適應(yīng)用戶使用習(xí)慣的能力，你用的越多，它越懂你。

例如語(yǔ)言模型的個(gè)性化，我們可以將一些不容易識(shí)別的生僻的詞，比如人名地名等上傳到給我們?cè)贫?，我們根?jù)你上傳的信息有針對(duì)性的優(yōu)化你的語(yǔ)言模型，提高這些詞的識(shí)別率。后面會(huì)有視頻給大家演示這樣的效果。

目前我們訊飛的識(shí)別支持中文和英文，還支持中文的21種方言，其中粵語(yǔ)和四川話是免費(fèi)開放就可以使用的，其他的方言需要通過(guò)商務(wù)合作后才能使用。

離線聽寫也是有的，在訊飛輸入法和訊飛語(yǔ)記app中都已經(jīng)使用了。大家要開發(fā)Android平臺(tái)的應(yīng)用可以借助語(yǔ)記APP提供離線聽寫能力，來(lái)讓你自己的應(yīng)用也具有離線聽寫的功能。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

+關(guān)注

關(guān)注
38

文章
1739

瀏覽量
112663

評(píng)論

相關(guān)推薦

基于語(yǔ)音識(shí)別的智能會(huì)議系統(tǒng)具備哪些交互功能

標(biāo)貝科技專注智能語(yǔ)音交互領(lǐng)域多年，在語(yǔ)音識(shí)別和語(yǔ)音合成領(lǐng)域有著多項(xiàng)大型企業(yè)合作案例，標(biāo)貝與多個(gè)智能會(huì)議系統(tǒng)廠商合作，成功將語(yǔ)音

發(fā)表于 12-20 10:35 ?94次閱讀

標(biāo)貝智能語(yǔ)音識(shí)別在智能會(huì)議場(chǎng)景中的落地案例

發(fā)表于 12-20 10:31 ?153次閱讀

標(biāo)貝智能<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>在智能會(huì)議場(chǎng)景中的<b class='flag-5'>落地</b>案例

語(yǔ)音識(shí)別技術(shù)的應(yīng)用與發(fā)展

語(yǔ)音識(shí)別技術(shù)的發(fā)展可以追溯到20世紀(jì)50年代，但直到近年來(lái)，隨著計(jì)算能力的提升和機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步，這項(xiàng)

發(fā)表于 11-26 09:20 ?464次閱讀

ASR語(yǔ)音識(shí)別技術(shù)應(yīng)用

ASR（Automatic Speech Recognition）語(yǔ)音識(shí)別技術(shù)，是計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域的重要突破，能將人類語(yǔ)音轉(zhuǎn)換為文本，廣泛應(yīng)用于智能家居、醫(yī)療、交通等多個(gè)領(lǐng)域。

發(fā)表于 11-18 15:12 ?639次閱讀

HPLC智能電表有什么技術(shù)優(yōu)勢(shì)嗎？

HPLC(高速電力線通信)智能電表作為一種先進(jìn)的智能計(jì)量設(shè)備，憑借其獨(dú)特的技術(shù)優(yōu)勢(shì)，在電力管理領(lǐng)域得到了廣泛應(yīng)用。下面我們將詳細(xì)介紹HPLC智能電表的主要技術(shù)優(yōu)勢(shì)。1.高傳輸速率-高速數(shù)據(jù)傳輸

發(fā)表于 09-26 18:00 ?478次閱讀

智能玩具用離線語(yǔ)音識(shí)別芯片有什么優(yōu)勢(shì)

隨著科技的發(fā)展，很多智能電子產(chǎn)品和兒童玩具實(shí)現(xiàn)了與人類的交互，語(yǔ)音芯片在這些人機(jī)交互中起到了不可替代的作用，語(yǔ)音識(shí)別芯片在智能玩具中的應(yīng)用就

發(fā)表于 09-20 10:00 ?288次閱讀

碳化硅功率器件的技術(shù)優(yōu)勢(shì)

優(yōu)勢(shì)，成為了電力電子領(lǐng)域的一顆璀璨新星。本文將深入探討碳化硅功率器件的物性特征、技術(shù)優(yōu)勢(shì)、應(yīng)用前景以及面臨的挑戰(zhàn)。

發(fā)表于 09-11 10:43 ?304次閱讀

Transformer模型在語(yǔ)音識(shí)別和語(yǔ)音生成中的應(yīng)用優(yōu)勢(shì)

隨著人工智能技術(shù)的飛速發(fā)展，語(yǔ)音識(shí)別和語(yǔ)音生成作為人機(jī)交互的重要組成部分，正逐漸滲透到我們生活的各個(gè)方面。而Transformer模型，自其

發(fā)表于 07-03 18:24 ?1117次閱讀

人工智能的語(yǔ)音識(shí)別技術(shù)詳解

隨著科技的飛速發(fā)展，人工智能（AI）技術(shù)已經(jīng)滲透到我們生活的方方面面，其中語(yǔ)音識(shí)別技術(shù)作為AI領(lǐng)域的重要分支，更是以其獨(dú)特的魅力和廣泛的應(yīng)用

發(fā)表于 07-01 11:39 ?1257次閱讀

藍(lán)鵬測(cè)控的激光測(cè)徑儀有哪些技術(shù)優(yōu)勢(shì)

具有顯著的技術(shù)優(yōu)勢(shì)，使得其產(chǎn)品在市場(chǎng)上具有較高的競(jìng)爭(zhēng)力和應(yīng)用價(jià)值。網(wǎng)站名稱：保定市藍(lán)鵬測(cè)控科技有限公司可根據(jù)客戶需求提供解決方案，定制產(chǎn)品。歡迎QQ咨詢：2087627071 電話

發(fā)表于 05-24 17:25

高速信號(hào)差分線的技術(shù)優(yōu)勢(shì)

隨著信息技術(shù)的飛速發(fā)展，高速信號(hào)傳輸已成為現(xiàn)代通信和數(shù)據(jù)處理中不可或缺的一環(huán)。在高速信號(hào)傳輸中，差分線技術(shù)因其獨(dú)特的優(yōu)勢(shì)而得到廣泛應(yīng)用。本文將從差分線的基本原理、抗干擾能力、帶寬容量、

發(fā)表于 05-16 16:31 ?852次閱讀

**十萬(wàn)級(jí)口語(yǔ)識(shí)別，離線自然說(shuō)技術(shù)，讓智能照明更懂你**

固定詞條等。針對(duì)這些問(wèn)題，啟英泰倫現(xiàn)已推出成熟的可應(yīng)用于照明設(shè)備的離線自然說(shuō)方案，該方案已在多家智能照明廠商最新產(chǎn)品上實(shí)現(xiàn)應(yīng)用落地。照明離線自然說(shuō)方案采用啟英泰倫第三代AI語(yǔ)音芯片（芯片F(xiàn)lash

發(fā)表于 04-29 17:09

澎湃微離線語(yǔ)音識(shí)別應(yīng)用實(shí)例

隨著科技的飛速發(fā)展，人機(jī)交互的方式也在不斷演變。在鍵盤、觸摸屏之后，語(yǔ)音識(shí)別技術(shù)正逐漸成為人機(jī)交互的新寵。從技術(shù)路線上來(lái)講

發(fā)表于 03-15 14:11 ?430次閱讀

車內(nèi)語(yǔ)音識(shí)別技術(shù)在智能駕駛中的應(yīng)用與前景

一、引言隨著智能駕駛技術(shù)的快速發(fā)展，車內(nèi)語(yǔ)音識(shí)別技術(shù)逐漸成為智能駕駛領(lǐng)域的研究熱點(diǎn)。語(yǔ)音

發(fā)表于 02-19 11:46 ?826次閱讀

車內(nèi)語(yǔ)音識(shí)別技術(shù)：智能駕駛的核心要素

一、引言隨著科技的飛速發(fā)展，智能駕駛已經(jīng)成為未來(lái)出行的趨勢(shì)。作為智能駕駛的關(guān)鍵技術(shù)之一，車內(nèi)語(yǔ)音識(shí)別技術(shù)發(fā)揮著越來(lái)越重要的作用。它不僅提升

發(fā)表于 02-19 11:42 ?764次閱讀