0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

智能語音的發(fā)展過程歷史詳細(xì)概述

mK5P_AItists ? 2018-04-22 11:36 ? 次閱讀

1952年,貝爾實驗室(Bell Labs)制造一臺6英尺高自動數(shù)字識別機(jī)“Audrey”,它可以識別數(shù)字0~9的發(fā)音,且準(zhǔn)確度高達(dá)90%以上。并且它對熟人的精準(zhǔn)度高,而對陌生人則偏低。

1956年,普林斯頓大學(xué)RCA實驗室開發(fā)了單音節(jié)詞識別系統(tǒng),能夠識別特定人的十個單音節(jié)詞中所包含的不同音節(jié)。

1959年,MIT的林肯實驗室開發(fā)了針對十個元音的非特定人語音識別系統(tǒng)。

二十世紀(jì)六十年代初,東京無線電實驗室、京都大學(xué)和NEC實驗室在語音識別領(lǐng)域取得了開拓性的進(jìn)展,各自先后制作了能夠進(jìn)行語音識別的專用硬件。

1964年的世界博覽會上,IBM向世人展示了數(shù)字語音識別的“shoe box recognizer”。

二十世紀(jì)七十年代,語音識別的研究取得了突破性的進(jìn)展,研究重心仍然是孤立詞語語音識別。

1971年,美國國防部研究所(Darpa)贊助了五年期限的語音理解研究項目,希望將識別的單詞量提升到1000以上。參與該項目的公司和學(xué)術(shù)機(jī)構(gòu)包括IBM、卡內(nèi)基梅隆大學(xué)(CMU)、斯坦福研究院。就這樣,Harpy在CMU誕生了。不像之前的識別器,Harpy可以識別整句話。

二十世紀(jì)八十年代,NEC提出了二階動態(tài)規(guī)劃算法,Bell實驗室提出了分層構(gòu)造算法,以及幀同步分層構(gòu)造算法等。同時,連接詞和大詞匯量連續(xù)語音的識別得到了較大發(fā)展,統(tǒng)計模型逐步取代模板匹配的方法,隱馬爾科夫模型(HMM)成為語音識別系統(tǒng)的基礎(chǔ)模型。

八十年代中期,IBM創(chuàng)造了一個語音控制的打字機(jī)—Tangora,能夠處理大約20000單詞。IBM的研究就是基于隱形馬爾科夫鏈模型(hidden Markov model),在信號處理技術(shù)中加入統(tǒng)計信息。這種方法使得在給定音素情況下,很有可能預(yù)測下一個因素。

1984年,IBM發(fā)布的語音識別系統(tǒng)在5000個詞匯量級上達(dá)到了95%的識別率。

1985年AT&T貝爾實驗室建造了第一個智能麥克風(fēng)系統(tǒng),用來研究大室內(nèi)空間的聲源位置追蹤問題。

1987年開始,國家開始執(zhí)行963計劃后,國家863智能計算機(jī)主題專家組為語音識別研究立項,每兩年一次。

1987年12月,李開復(fù)開發(fā)出世界上第一個“非特定人連續(xù)語音識別系統(tǒng)”。

1988年,卡耐基梅隆大學(xué)結(jié)合矢量量化技術(shù)(VQ),用VQ/HMM方法開發(fā)了世界上第一個非特定人大詞匯量連續(xù)語音識別系統(tǒng)SPHINX,能夠識別包括997個詞匯的4200個連續(xù)語句。

同年,清華大學(xué)和中科院聲學(xué)所在大詞庫漢語聽寫機(jī)的研制上取得了突破性進(jìn)展。

1990年,聲龍發(fā)布了第一款消費(fèi)級語音識別產(chǎn)品Dragon Dictate,價格高達(dá)9000美元。

1992年,IBM引入了它的第一個聽寫系統(tǒng),稱為“IBM Speech Server Series (ISSS)”。

1992年研發(fā)的Sphinx-II在同年美國國防部先進(jìn)技術(shù)研究計劃署(DARPA)資助的語音基準(zhǔn)評測中獲得了最高的識別準(zhǔn)確度,這主要得益于其在高斯混合和馬爾可夫狀態(tài)層次上用栓連參數(shù)平衡了可訓(xùn)練性和高效性。

1995年,Windows 95上首次搭載微軟SAPI,它使應(yīng)用程序開發(fā)者能夠在Windows上創(chuàng)建語音程序。

1995年,AT&T研究院的 Dave Ladd, Chris Ramming, Ken Rehor 以及 Curt Tuckey 在頭腦風(fēng)暴關(guān)于互聯(lián)網(wǎng)會如何改變電話應(yīng)用的時候,產(chǎn)生了一些新的想法:為什么不設(shè)計這樣一個系統(tǒng)來運(yùn)行一種可以解析某種語音標(biāo)記語言的語音瀏覽器,用來把互聯(lián)網(wǎng)的內(nèi)容和服務(wù)提供到千家萬戶的電話上。于是,AT&T就開始“電話網(wǎng)絡(luò)項目”(Phone Web Project)。之后,Chris繼續(xù)留在AT&T,Ken去了朗訊,Dave和Curt去了摩托羅拉。(1999年初的時候,他們分別在各自的公司邁出了語音標(biāo)記語言規(guī)范實質(zhì)性的第一步。因為他們的密友關(guān)系,這幾家公司合作成立了一個VoiceXML論壇組織,IBM也作為一個創(chuàng)始公司加入了進(jìn)來。)

1997年IBM ViaVoice首個語音聽寫產(chǎn)品問世,你只要對著話筒喊出要輸入的字符,它就會自動判斷并且?guī)湍爿斎胛淖帧4文暧珠_發(fā)出可以識別上海話、廣東話和四川話等地方口音的語音識別系統(tǒng)ViaVoice’ 98。

1998年,微軟在北京成立亞洲研究院,將漢語語音識別納入重點研究方向之一。

2001年,比爾蓋茨在美國消費(fèi)電子展上展示了一臺代號為MiPad的原型機(jī)。Mipad展現(xiàn)了語音多模態(tài)移動設(shè)備的愿景。

2002年,中科院自動化所及其所屬模式科技公司推出了“天語”中文語音系列產(chǎn)品——Pattek ASR,結(jié)束了該領(lǐng)域一直被國外公司壟斷的局面。

2002年,美國國防部先進(jìn)技術(shù)研究計劃署(DARPA)首先啟動了EARS項目和TIDES 項目; 由于EARS項目過于敏感,EARS和TIDES兩個項目合并為“全球自主語言開發(fā)”(Global Autonomous Language Exploitation,GALE)。GALE目標(biāo)是應(yīng)用計算機(jī)軟件技術(shù)對海量規(guī)模的多語言語音和文本進(jìn)行獲取、轉(zhuǎn)化、分析和翻譯。

2006年,辛頓(Hinton)提出深度置信網(wǎng)絡(luò)(DBN),促使了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)研究的復(fù)蘇,掀起了深度學(xué)習(xí)的熱潮。

2009年,辛頓以及他的學(xué)生默罕默德(D. Mohamed)將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音的聲學(xué)建模,在小詞匯量連續(xù)語音識別數(shù)據(jù)庫TIMIT上獲得成功。

2009年微軟Win7集成語音功能。

2010年Google Vioce Action支持語音操作與搜索。

2011年初,微軟的DNN模型在語音搜索任務(wù)上獲得成功。

同年科大訊飛將DNN 首次成功應(yīng)用到中文語音識別領(lǐng)域,并通過語音云平臺提供給廣大開發(fā)者使用。

2011年10月,蘋果iPhone 4S發(fā)布,個人手機(jī)助理Siri誕生,人機(jī)交互翻開新篇章。

2012年,科大訊飛在語音合成領(lǐng)域首創(chuàng)RBM技術(shù)。

2012年,谷歌的智能語音助手Google Now 的形式出現(xiàn)在眾人面前,用在安卓 4.1 和 Nexus 手機(jī)上。

2013年,Google發(fā)布Google Glass,蘋果也加大了對iWatch的研發(fā)投入,穿戴式語音交互設(shè)備成為新熱點。

同年,科大訊飛在語種識別領(lǐng)域首創(chuàng)BN-ivec技術(shù)。

2014 年,思必馳推出首個可實時轉(zhuǎn)錄的語音輸入板。

2014年11月,亞馬遜智能音箱Echo發(fā)布。

2015 年,思必馳推出首個可智能打斷糾正的語音技術(shù)。

2016年,Google Assistant伴隨Google Home 正式亮相,搶奪亞馬遜智能音箱市場。(亞馬遜Echo在2016年的智能音箱市場占有率達(dá)到了巔峰的88%)

同年,科大訊飛上線DFCNN(深度全序列卷積神經(jīng)網(wǎng)絡(luò),Deep Fully Convolutional Neural Network)語音識別系統(tǒng)。

同年11月,科大訊飛、搜狗、百度先后召開發(fā)布會,對外公布語音識別準(zhǔn)確率均達(dá)到“97%”。

2017年3月,IBM結(jié)合了 LSTM 模型和帶有 3 個強(qiáng)聲學(xué)模型的 WaveNet 語言模型?!凹袛U(kuò)展深度學(xué)習(xí)應(yīng)用技術(shù)終于取得了 5.5% 詞錯率的突破”。相對應(yīng)的是去年5月的6.9%。

2017年8月,微軟發(fā)布新的里程碑,通過改進(jìn)微軟語音識別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聽覺和語言模型,在去年基礎(chǔ)上降低了大約12%的出錯率,詞錯率為5.1%,聲稱超過專業(yè)速記員。相對應(yīng)的是去年10月的5.9%,聲稱超過人類。

2017年12月,谷歌發(fā)布全新端到端語音識別系統(tǒng)(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),詞錯率降低至5.6%。相對于強(qiáng)大的傳統(tǒng)系統(tǒng)有 16% 的性能提升。

市場分析公司Canalys在2018年1月分布一份報告,其預(yù)測2018年將是普及智能音箱的“決定性一年”,相比全年出貨量剛過3000萬臺的2017年,2018年智能音箱全球出貨量預(yù)計將達(dá)到5630萬臺。

智能語音的發(fā)展過程歷史詳細(xì)概述

中投顧問發(fā)布的《2018-2022年中國智能語音行業(yè)深度調(diào)研及投資前景預(yù)測報告》顯示我國智能語音市場整體處于啟動期,智能車載,智能家居,智能可穿戴等垂直領(lǐng)域處于爆發(fā)前夜。

智能語音的發(fā)展過程歷史詳細(xì)概述

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 智能語音
    +關(guān)注

    關(guān)注

    10

    文章

    789

    瀏覽量

    48872

原文標(biāo)題:智能語音簡史:這場技術(shù)革命從哪開始?

文章出處:【微信號:AItists,微信公眾號:人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    語音識別與自然語言處理的關(guān)系

    在人工智能的快速發(fā)展中,語音識別和自然語言處理(NLP)成為了兩個重要的技術(shù)支柱。語音識別技術(shù)使得機(jī)器能夠理解人類的語音,而自然語言處理則讓
    的頭像 發(fā)表于 11-26 09:21 ?555次閱讀

    語音識別技術(shù)的應(yīng)用與發(fā)展

    語音識別技術(shù)的發(fā)展可以追溯到20世紀(jì)50年代,但直到近年來,隨著計算能力的提升和機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,這項技術(shù)才真正成熟并廣泛應(yīng)用于各個領(lǐng)域。語音識別技術(shù)的應(yīng)用不僅提高了工作效率,也極大地改善了用戶
    的頭像 發(fā)表于 11-26 09:20 ?706次閱讀

    語音模塊——LSYT201B模組(超詳細(xì))

    ——LSYT201B語音模組。它的技術(shù)支持詳細(xì),能夠使得用戶更好的理解和使用產(chǎn)品,降低開發(fā)難度,縮短開發(fā)周期。   免費(fèi)樣品 (longsto.com)大家可以在深圳市雷龍發(fā)展有限公司對需要的樣品進(jìn)行免費(fèi)申請
    發(fā)表于 09-20 18:37

    簡述微處理器的發(fā)展歷史

    微處理器的發(fā)展歷史是一部充滿創(chuàng)新與突破的技術(shù)演進(jìn)史,它見證了計算機(jī)技術(shù)的飛速發(fā)展和人類社會的巨大變革。以下是對微處理器發(fā)展歷史
    的頭像 發(fā)表于 08-22 14:22 ?3639次閱讀

    圖像處理器的發(fā)展歷史

    圖像處理器(Image Processor)的發(fā)展歷史是一段充滿創(chuàng)新與突破的歷程,它伴隨著計算機(jī)技術(shù)的不斷進(jìn)步和圖像處理需求的日益增長而逐漸成熟。以下是對圖像處理器發(fā)展歷史
    的頭像 發(fā)表于 08-14 09:42 ?1172次閱讀

    射頻天線的發(fā)展歷史

    射頻天線,作為無線通信系統(tǒng)的關(guān)鍵組成部分,其發(fā)展歷程充滿了探索與創(chuàng)新。從最初的簡單形態(tài)到如今的復(fù)雜多樣,天線技術(shù)不僅見證了無線通信技術(shù)的飛速發(fā)展,也深刻影響了人類社會的方方面面。以下是對射頻天線發(fā)展
    的頭像 發(fā)表于 08-13 10:50 ?833次閱讀

    簡述光通信的發(fā)展歷史

    光通信的發(fā)展歷史是一段充滿創(chuàng)新與突破的旅程,它極大地推動了現(xiàn)代通信技術(shù)的進(jìn)步,為人類社會帶來了前所未有的便捷與高效。以下是對光通信發(fā)展歷史詳細(xì)
    的頭像 發(fā)表于 08-09 11:47 ?2148次閱讀

    risc-v的發(fā)展歷史

    RISC-V的發(fā)展歷史可以追溯到2006年左右,當(dāng)時David Patterson和其他研究者開始探索創(chuàng)建一個開放和可擴(kuò)展的指令集架構(gòu)(ISA)。以下是RISC-V發(fā)展的主要里程碑: 一、起源與初步
    發(fā)表于 07-29 17:20

    人工智能的定義和發(fā)展過程

    、識別、生成和交互等類人智能的能力,從而執(zhí)行各種復(fù)雜任務(wù),甚至在某些方面超越人類的智能表現(xiàn)。隨著科技的飛速發(fā)展,人工智能已經(jīng)滲透到我們生活的各個方面,成為推動社會進(jìn)步和經(jīng)濟(jì)
    的頭像 發(fā)表于 07-04 14:05 ?1386次閱讀

    西門子PLC的發(fā)展歷史

    創(chuàng)新與突破。本文將詳細(xì)梳理西門子PLC的發(fā)展歷史,并結(jié)合相關(guān)數(shù)字和信息,以期為讀者提供一個清晰、全面的視角。
    的頭像 發(fā)表于 06-15 11:26 ?2206次閱讀

    語音控制模塊_雷龍發(fā)展

    逐一詳細(xì)介紹這些步驟:   1.信號采集   離線語音識別系統(tǒng)的第一步是信號采集。聲音信號通過麥克風(fēng)(傳感器)以電信號的形式被捕捉到,這是后續(xù)處理的基礎(chǔ)。   2.預(yù)處理   預(yù)處理階段包括去除噪聲
    發(fā)表于 06-14 17:18

    語音芯片究竟如何寫入語音?思澤遠(yuǎn)科技為您詳細(xì)解答

    在現(xiàn)代科技的發(fā)展中,語音芯片已經(jīng)成為了我們生活中不可或缺的一部分。它可以被廣泛應(yīng)用于各種設(shè)備,如智能手機(jī)、平板電腦、智能家居等,為我們提供便捷的操作體驗。那么,
    的頭像 發(fā)表于 03-27 14:41 ?953次閱讀
    <b class='flag-5'>語音</b>芯片究竟如何寫入<b class='flag-5'>語音</b>?思澤遠(yuǎn)科技為您<b class='flag-5'>詳細(xì)</b>解答

    車內(nèi)語音識別數(shù)據(jù)在智能駕駛中的價值與應(yīng)用

    化和個性化提供了有力支持。本文將詳細(xì)介紹車內(nèi)語音識別數(shù)據(jù)在智能駕駛中的價值、應(yīng)用以及面臨的挑戰(zhàn)和未來的發(fā)展趨勢。 二、車內(nèi)語音識別數(shù)據(jù)的價值
    的頭像 發(fā)表于 02-19 11:47 ?648次閱讀

    車內(nèi)語音識別技術(shù)在智能駕駛中的應(yīng)用與前景

    詳細(xì)介紹車內(nèi)語音識別技術(shù)在智能駕駛中的應(yīng)用、挑戰(zhàn)以及未來的發(fā)展趨勢。 二、車內(nèi)語音識別技術(shù)在智能
    的頭像 發(fā)表于 02-19 11:46 ?907次閱讀

    語音合成技術(shù)在智能駕駛中的應(yīng)用與展望

    一、引言 隨著科技的飛速發(fā)展,語音合成技術(shù)逐漸成為人機(jī)交互領(lǐng)域的重要分支。在智能駕駛環(huán)境中,語音合成技術(shù)更是發(fā)揮著不可或缺的作用。它不僅簡化了人機(jī)交互
    的頭像 發(fā)表于 02-01 17:50 ?577次閱讀