欧美视频午夜一区,日本三级2021最新理论在线观看

語音識別技術(shù)的發(fā)展

與機器進行語音交流，讓它聽明白你在說什么。語音識別技術(shù)將人類這一曾經(jīng)的夢想變成了現(xiàn)實。語音識別就好比“機器的聽覺系統(tǒng)”，該技術(shù)讓機器通過識別和理解，把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。

在1952年的貝爾研究所，Davis等人研制了世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng)。1960年英國的Denes等人研制了第一個計算機語音識別系統(tǒng)。

大規(guī)模的語音識別研究始于上世紀(jì)70年代以后，并在小詞匯量、孤立詞的識別方面取得了實質(zhì)性的進展。上世紀(jì)80年代以后，語音識別研究的重點逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識別。

同時，語音識別在研究思路上也發(fā)生了重大變化，由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計模型的技術(shù)思路。此外，業(yè)內(nèi)有專家再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識別問題的技術(shù)思路。

上世紀(jì)90年代以后，在語音識別的系統(tǒng)框架方面并沒有什么重大突破。但是，在語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進展。比如，DARPA是在上世界70年代由美國國防部遠景研究計劃局資助的一項計劃，旨在支持語言理解系統(tǒng)的研究開發(fā)工作。進入上世紀(jì)90年代，DARPA計劃仍在持續(xù)進行中，其研究重點已轉(zhuǎn)向識別裝置中的自然語言處理部分，識別任務(wù)設(shè)定為“航空旅行信息檢索”。

我國的語音識別研究起始于1958年，由中國科學(xué)院聲學(xué)所利用電子管電路識別10個元音。由于當(dāng)時條件的限制，中國的語音識別研究工作一直處于緩慢發(fā)展的階段。直至1973年，中國科學(xué)院聲學(xué)所開始了計算機語音識別。

進入上世紀(jì)80年代以來，隨著計算機應(yīng)用技術(shù)在我國逐漸普及和應(yīng)用以及數(shù)字信號技術(shù)的進一步發(fā)展，國內(nèi)許多單位具備了研究語音技術(shù)的基本條件。與此同時，國際上語音識別技術(shù)在經(jīng)過了多年的沉寂之后重又成為研究的熱點。在這種形式下，國內(nèi)許多單位紛紛投入到這項研究工作中去。

1986年，語音識別作為智能計算機系統(tǒng)研究的一個重要組成部分而被專門列為研究課題。在“863”計劃的支持下，中國開始組織語音識別技術(shù)的研究，并決定了每隔兩年召開一次語音識別的專題會議。自此，我國語音識別技術(shù)進入了一個新的發(fā)展階段。

自2009年以來，借助機器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展以及大數(shù)據(jù)語料的積累，語音識別技術(shù)得到突飛猛進的發(fā)展。

將機器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究引入到語音識別聲學(xué)模型訓(xùn)練，使用帶RBM預(yù)訓(xùn)練的多層神經(jīng)網(wǎng)絡(luò)，提高了聲學(xué)模型的準(zhǔn)確率。在此方面，微軟公司的研究人員率先取得了突破性進展，他們使用深層神經(jīng)網(wǎng)絡(luò)模型（DNN）后，語音識別錯誤率降低了30%，是近20年來語音識別技術(shù)方面最快的進步。

2009年前后，大多主流的語音識別解碼器已經(jīng)采用基于有限狀態(tài)機（WFST）的解碼網(wǎng)絡(luò)，該解碼網(wǎng)絡(luò)可以把語言模型、詞典和聲學(xué)共享音字集統(tǒng)一集成為一個大的解碼網(wǎng)絡(luò)，提高了解碼的速度，為語音識別的實時應(yīng)用提供了基礎(chǔ)。

隨著互聯(lián)網(wǎng)的快速發(fā)展，以及手機等移動終端的普及應(yīng)用，可以從多個渠道獲取大量文本或語音方面的語料，這為語音識別中的語言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源，使得構(gòu)建通用大規(guī)模語言模型和聲學(xué)模型成為可能。

在語音識別中，訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動系統(tǒng)性能提升的最重要因素之一，但是語料的標(biāo)注和分析需要長期的積累和沉淀，隨著大數(shù)據(jù)時代的來臨，大規(guī)模語料資源的積累將提到戰(zhàn)略高度。

現(xiàn)如今，語音識別在移動終端上的應(yīng)用最為火熱，語音對話機器人、語音助手、互動工具等層出不窮，許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財力展開此方面的研究和應(yīng)用，目的是通過語音交互的新穎和便利模式迅速占領(lǐng)客戶群。（雨田整理）相關(guān)產(chǎn)品 siri

Siri技術(shù)來源于美國國防部高級研究規(guī)劃局所公布的CALO計劃：一個讓軍方簡化處理一些繁復(fù)庶務(wù)，并具學(xué)習(xí)、組織以及認(rèn)知能力的數(shù)字助理，其所衍生出來的民用版軟件Siri虛擬個人助理。

Siri成立于2007年，最初是以文字聊天服務(wù)為主，隨后通過與語音識別廠商Nuance合作，Siri實現(xiàn)了語音識別功能。2010年，Siri被蘋果以2億美金收購。

Siri成為蘋果公司在其產(chǎn)品iPhone和iPad Air上應(yīng)用的一項語音控制功能。Siri可以令iPhone和iPad Air變身為一臺智能化機器人。Siri支持自然語言輸入，并且可以調(diào)用系統(tǒng)自帶的天氣預(yù)報、日程安排、搜索資料等應(yīng)用，還能夠不斷學(xué)習(xí)新的聲音和語調(diào)，提供對話式的應(yīng)答。

Google Now

Google Now是谷歌隨安卓4.1系統(tǒng)同時推出的一款應(yīng)用，它可以了解用戶的各種習(xí)慣和正在進行的動作，并利用所了解的資料來為用戶提供相關(guān)信息。

今年3月24日，谷歌宣布Google Now語音服務(wù)正式登陸Windows和Mac桌面版Chrome瀏覽器。

Google Now的應(yīng)用會更加方便用戶收取電子郵件，當(dāng)你接收到新郵件時，它就會自動彈出以便你查看。Google Now還推出了步行和行車?yán)锍逃涗浌δ埽@個計步器功能可通過Android設(shè)備的傳感器來統(tǒng)計用戶每月行駛的里程，包括步行和騎自行車的路程。

此外，Google Now增加了一些旅游和娛樂特色功能，包括：汽車租賃、演唱會門票和通勤共享方面的卡片；公共交通和電視節(jié)目的卡片進行改善，這些卡片現(xiàn)在可以聽音識別音樂和節(jié)目信息；用戶可以為新媒體節(jié)目的開播設(shè)定搜索提醒，同時還可以接收實時NCAA（美國大學(xué)體育協(xié)會）橄欖球比分。

百度語音

百度語音一般指百度語音搜索，是百度公司為廣大互聯(lián)網(wǎng)用戶提供的一種基于語音的搜索服務(wù)，用戶可以使用多種客戶端發(fā)起語音搜索，服務(wù)器端根據(jù)用戶的發(fā)出的語音請求，進行語音識別然后將檢索結(jié)果反饋給用戶。

百度語音搜索不僅提供一般的通用語音搜索服務(wù)，還有針對地圖用戶制定的特色搜索服務(wù)，后續(xù)還會有更多的個性化搜索和識別服務(wù)出現(xiàn)。

目前百度語音搜索以移動客戶端為主要平臺，內(nèi)嵌于百度的其他產(chǎn)品中，比如掌上百度，百度手機地圖等，用戶可以在使用這些客戶端產(chǎn)品的同時體驗語音搜索，支持全部主流的手機操作系統(tǒng)。

微軟Cortana

Cortana是Windows Phone平臺下的虛擬語音助手，由游戲《光暈》中Cortana的聲優(yōu)Jen Taylor配音，Cortana中文版又名“微軟小娜”。

微軟對Cortana的描述為“你手機上的私人助手，為你提供設(shè)置日歷項、建議、進程等更多幫助”，它能夠和你之間進行交互，并且盡可能的模擬人的說話語氣和思考方式跟你進行交流。此外圓形的圖標(biāo)按鈕會隨著你手機的主題進行調(diào)整，如果說你設(shè)置了綠色的主題，那么Cortana就是綠色的圖標(biāo)。

此外，你能夠通過開始屏幕或者設(shè)備上的搜索按鈕來呼出Cortana，Cortana采用一問一答的方式，它只有在你咨詢它的時候才會顯示足夠多的信息。

語音識別技術(shù)難點

語音識別成為爭奪焦點

據(jù)悉，全球范圍人工智能公司多專攻深度學(xué)習(xí)方向，而我國人工智能方向的200家左右的創(chuàng)業(yè)公司有超過70%的公司主攻圖像或語音識別這兩個分類。全球都有哪些公司在布局語音識別？他們的發(fā)展情況又如何？

其實，早在計算機發(fā)明之前，自動語音識別的設(shè)想就已經(jīng)被提上了議事日程，早期的聲碼器可被視作語音識別及合成的雛形。最早的基于電子計算機的語音識別系統(tǒng)是由AT&T貝爾實驗室開發(fā)的Audrey語音識別系統(tǒng)，它能夠識別10個英文數(shù)字。到1950年代末，倫敦學(xué)院（Colledge of London）的Denes已經(jīng)將語法概率加入語音識別中。

1960年代，人工神經(jīng)網(wǎng)絡(luò)被引入了語音識別。這一時代的兩大突破是線性預(yù)測編碼Linear PredicTIve Coding（LPC），及動態(tài)時間規(guī)整Dynamic TIme Warp技術(shù)。語音識別技術(shù)最重大的突破是隱含馬爾科夫模型Hidden Markov Model的應(yīng)用。從Baum提出相關(guān)數(shù)學(xué)推理，經(jīng)過Rabiner等人的研究，卡內(nèi)基梅隆大學(xué)的李開復(fù)最終實現(xiàn)了第一個基于隱馬爾科夫模型的大詞匯量語音識別系統(tǒng)Sphinx。

蘋果Siri

許多人認(rèn)識語音識別可能還得歸功于蘋果鼎鼎大名的語音助手Siri。2011年蘋果將語音識別技術(shù)融入到iPhone 4S中并發(fā)布了Siri語音助理，不過Siri并不是蘋果研發(fā)的技術(shù)，而是收購成立于2007年的Siri Inc.這家公司獲得的技術(shù)。在iPhone4s發(fā)布以后，Siri的體驗并不理想，遭到了吐槽。因此，2013年蘋果又收購了Novauris Technologies。Novauris是一種可識別整個短語的語音識別技術(shù)，這種技術(shù)并非簡單識別單個詞句，而是試圖利用超過2.45億個短語的識別輔助理解上下文，這讓Siri的功能進一步完善。

不過Siri并沒有因為收購Novauris變得完美，2016年蘋果又收購了開發(fā)的人工智能軟件，能夠幫助計算機與用戶進行更為自然的對話英國語音技術(shù)初創(chuàng)公司VocalIQ。隨后，蘋果還收購了美國圣地牙哥AI技術(shù)公司EmoTIent，接收其臉部表情分析與情緒辨別技術(shù)。據(jù)悉，EmoTIent開發(fā)的情緒引擎可讀取人們的面部表情并且預(yù)測其情緒狀態(tài)。

谷歌Google Now

與蘋果Siri類似，谷歌的Google Now知名度也比較高。不過相比蘋果谷歌在語音識別領(lǐng)域的動作稍顯遲緩。2011年谷歌才出手收購語音通信公司SayNow和語音合成公司Phonetic Arts。SayNow可以把語音通信、點對點對話、以及群組通話和Facebook、Twitter、MySpace、Android和iPhone等等應(yīng)用等整合在一起，而Phonetic Arts可以把錄制的語音對話轉(zhuǎn)化成語音庫，然后把這些聲音結(jié)合到一起，從而生成聽上去非常逼真的人聲對話。

2012年的Google I/O開發(fā)者大會上，Google Now第一次亮相。

2013年谷歌又以超過3000萬美元收購了新聞閱讀應(yīng)用開發(fā)商Wavii。Wavii擅長“自然語言處理”技術(shù)，可以通過掃描互聯(lián)網(wǎng)發(fā)現(xiàn)新聞，并直接給出一句話摘要及鏈接。之后，谷歌又收購了SR Tech Group的多項語音識別相關(guān)的專利，這些技術(shù)和專利谷歌也很快應(yīng)用到市場，比如YouTube已提供標(biāo)題自動語音轉(zhuǎn)錄支持，Google Glass使用了語音控制技術(shù)，Android也整合了語音識別技術(shù)等等，Google Now更是擁有了完整的語音識別引擎。

谷歌可能出于戰(zhàn)略布局方面的考慮，2015年入資了中國的出門問問，這是一款以語音導(dǎo)航為主的公司，最近也發(fā)布了智能手表，出門問問也有國內(nèi)著名聲學(xué)器件廠商歌爾聲學(xué)的背景。

微軟Cortana小冰

微軟語音識別最吸引眼球的就是Cortana和小冰。Cortana是微軟在機器學(xué)習(xí)和人工智能領(lǐng)域方面的嘗試，Cortana可以記錄用戶的行為和使用習(xí)慣，利用云計算、搜索引擎和“非結(jié)構(gòu)化數(shù)據(jù)”分析，讀取和學(xué)習(xí)包括手機中的圖片、視頻、電子郵件等數(shù)據(jù)理解用戶的語義和語境，從而實現(xiàn)人機交互。

微軟小冰是微軟亞洲研究院2014年發(fā)布的人工智能機器人，微軟小冰除了智能對話之外，還兼具群提醒、百科、天氣、星座、笑話、交通指南、餐飲點評等實用技能。

除了Cortana和微軟小冰，Skype Translator，可以為英語、西班牙語、漢語、意大利語用戶提供實時翻譯服務(wù)。

亞馬遜

Amazon的語音技術(shù)起步于2011年收購語音識別公司Yap，Yap成立于2006年，主要提供語音轉(zhuǎn)換文本的服務(wù)。2012年Amazon又收購了語音技術(shù)公司Evi，繼續(xù)加強語音識別在商品搜索方面的應(yīng)用，Evi也曾經(jīng)應(yīng)用過Nuance的語音識別技術(shù)。2013年，Amazon繼續(xù)收購Ivona Software，Ivona是一家波蘭公司，主要做文本語音轉(zhuǎn)換，其技術(shù)已被應(yīng)用在Kindle Fire的文本至語音轉(zhuǎn)換功能、語音命令和Explore by Touch應(yīng)用之中，Amazon智能音箱Echo也是利用了這項技術(shù)。

Facebook

Facebook在2013年收購了創(chuàng)業(yè)型語音識別公司Mobile Technologies，其產(chǎn)品Jibbigo允許用戶在25種語言中進行選擇，使用其中一種語言進行語音片段錄制或文本輸入，然后將翻譯顯示在屏幕上，同時根據(jù)選擇的語言大聲朗讀出來。這一技術(shù)使得Jibbigo成為出國旅游的常用工具，很好地代替了常用語手冊。

之后，F(xiàn)acebook繼續(xù)收購了語音交互解決方案服務(wù)商Wit.ai。Wit.ai的解決方案允許用戶直接通過語音來控制移動應(yīng)用程序、穿戴設(shè)備和機器人，以及幾乎任何智能設(shè)備。Facebook的希望將這種技術(shù)應(yīng)用到定向廣告之中，將技術(shù)和自己的商業(yè)模式緊密結(jié)合在一起。

傳統(tǒng)語音識別行業(yè)貴族Nuance

除了以上介紹的大家熟知的科技巨頭的語音識別發(fā)展情況，傳統(tǒng)語音識別行業(yè)貴族Nuance也值得了解。Nuance曾經(jīng)在語音領(lǐng)域一統(tǒng)江湖，世界上有超過80%的語音識別都用過Nuance識別引擎技術(shù)，其語音產(chǎn)品可以支持超過50種語言，在全球擁有超過20億用戶，幾乎壟斷了金融和電信行業(yè)?，F(xiàn)在，Nuance依舊是全球最大的語音技術(shù)公司，掌握著全球最多的語音技術(shù)專利。蘋果語音助手Siri、三星語音助手S-Voice、各大航空公司和頂級銀行的自動呼叫中心，剛開始都是采用他們的語音識別引擎技術(shù)。

不過由于Nuance有點過于自大，現(xiàn)在的Nuance已經(jīng)不如當(dāng)年了。

國外其他語音識別公司

2013年英特爾收購了西班牙的語音識別技術(shù)公司Indisys，同年雅虎收購了自然語言處理技術(shù)初創(chuàng)公司SkyPhrase。而美國最大的有線電視公司Comcast也開始推出自己的語音識別交互系統(tǒng)。Comcast希望利用語音識別技術(shù)讓用戶通過語音就可以更自由控制電視，并完成一些遙控器無法完成的事情。

國內(nèi)語音識別廠商

科大訊飛

科大訊飛成立于1999年底，依靠中科大的語音處理技術(shù)以及國家的大力扶持，很快就走上了正軌?？拼笥嶏w2008年掛牌上市，目前市值接近500億，根據(jù)2014年語音產(chǎn)業(yè)聯(lián)盟的數(shù)據(jù)調(diào)查顯示，科大訊飛占據(jù)了超過60%的市場份額，絕對是語音技術(shù)的國內(nèi)龍頭企業(yè)。

提到科大訊飛，大家可能想到的都是語音識別，但其實它最大的收益來源是教育，特別是在2013年左右，收購了很多家語音評測公司，包括啟明科技等，對教育市場形成了壟斷，經(jīng)過一系列的收購后，目前所有省份的口語評測用的都是科大訊飛的引擎，由于其占據(jù)了考試的制高點，所有的學(xué)校及家長都愿意為其買單。

百度語音

百度語音很早就被確立為戰(zhàn)略方向，2010年與中科院聲學(xué)所合作研發(fā)語音識別技術(shù)，但是市場發(fā)展相對緩慢。直到2014年，百度重新梳理了戰(zhàn)略，請來了人工智能領(lǐng)域的泰斗級大師吳恩達，正式組建了語音團隊，專門研究語音相關(guān)技術(shù)，由于有百度強大的資金支持，到目前為止收獲頗豐，斬獲了近13%的市場份額，其技術(shù)實力已經(jīng)可以和擁有十多年技術(shù)與經(jīng)驗積累的科大訊飛相提并論。

捷通和信利

捷通華聲憑借的是清華技術(shù)，成立初期力邀中科院聲學(xué)所的呂士楠老先生加入，奠定了語音合成的基礎(chǔ)。中科信利則完全依托于中科院聲學(xué)所，其成立初期技術(shù)實力極為雄厚，不僅為國內(nèi)語音識別行業(yè)培養(yǎng)了大量人才，而且也在行業(yè)領(lǐng)域，特別是軍工領(lǐng)域發(fā)揮著至關(guān)重要的作用。

中科院聲學(xué)所培養(yǎng)的這些人才，對于國內(nèi)語音識別行業(yè)的發(fā)展極為重要，姑且稱之為聲學(xué)系，但是相對于市場來說，這兩家公司已經(jīng)落后了科大訊飛一大段距離。中科信利由于還有行業(yè)市場背景，目前基本上不再參與市場運作，而捷通華聲最近也因為南大電子“嬌嬌”機器人的造假事件被推上了風(fēng)口浪尖，著實是一個非常負(fù)面的影響。

思必馳

2009年前后，DNN被用于語音識別領(lǐng)域，語音識別率得到大幅提升，識別率突破90%，達到商用標(biāo)準(zhǔn)，這極大的推動了語音識別領(lǐng)域的發(fā)展，這幾年內(nèi)又先后成立許多語音識別相關(guān)的創(chuàng)業(yè)公司。

思必馳2007年成立，創(chuàng)始人大部分來源于劍橋團隊，其技術(shù)有一定的國外基礎(chǔ)，當(dāng)時公司主要側(cè)重于語音評測，也就是教育，但經(jīng)過多年的發(fā)展，雖然占有了一些市場，但在科大訊飛把持著考試制高點的情況下，也很難得到突破。

于是在2014年的時候，思必馳痛下決心將負(fù)責(zé)教育行業(yè)的部門剝離，以9000萬賣給了網(wǎng)龍，自己則把精力收縮專注智能硬件和移動互聯(lián)網(wǎng)，最近更是集中精力聚焦車載語音助手，推出了“蘿卜”，可市場反響非常一般。

云知聲

借著2011年蘋果Siri的宣傳勢頭，2012年云知聲成立。云知聲團隊主要來源于盛大研究院，湊巧的是CEO和CTO也是中科大畢業(yè)，與科大訊飛可以說是師兄弟。但語音識別技術(shù)則更多的源于中科院自動化所，其語音識別技術(shù)有一定的獨到之處，有一小段時期內(nèi)語音識別率甚至超越科大訊飛。因此也受到了資本的熱捧，B輪融資達到3億，主要瞄準(zhǔn)智能家居市場。但至今已經(jīng)成立了3年多，聽到的更多是宣傳，市場發(fā)展較為緩慢，B2B市場始終不見起色，B2C市場也很少聽到實際應(yīng)用，估計目前還處在燒錢階段。

出門問問

出門問問成立于2012年，其CEO曾經(jīng)在谷歌工作，在拿到紅杉資本和真格基金的天使投資之后，從谷歌辭職創(chuàng)辦了上海羽扇智信息科技有限公司，并立志打造下一代移動語音搜索產(chǎn)品————“出門問問”。

出門問問的成功之處便是蘋果APP的榜單排名，但是筆者不知道有那么多內(nèi)置地圖的情況下，為啥還要下載這個軟件，顯然有時候比直接查找地圖還要麻煩。出門問問同樣也具有較強的融資能力，2015年拿到了Google的C輪融資，融資額累計已經(jīng)7500萬美元。出門問問主要瞄準(zhǔn)可穿戴市場，最近自己也推出了智能手表等產(chǎn)品，但也是雷聲大，雨點小，沒見得其智能手表的銷量如何。

國內(nèi)其他的語音識別公司

語音識別的門檻并不高，因此國內(nèi)各大公司也逐漸加入進來。搜狗開始采用的是云知聲的語音識別引擎，但很快就搭建起自己的語音識別引擎，主要應(yīng)用于搜狗輸入法，效果也還可以。

騰訊當(dāng)然不會落后，微信也建立了自己語音識別引擎，用于將語音轉(zhuǎn)換為文字，但這個做的還是有點差距。

阿里，愛奇藝，360，樂視等等也都在搭建自己的語音識別引擎，但這些大公司更多的是自研自用，基本上技術(shù)上泛善可陳，業(yè)界也沒有什么影響力。

當(dāng)然，除了以上介紹的產(chǎn)業(yè)界的語音識別公司，學(xué)術(shù)界Cambridge的HTK工具對學(xué)術(shù)界研究推動巨大，還有CMU、SRI、MIT、RWTH、ATR等同樣推動語音識別技術(shù)的發(fā)展。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴