0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

淺析語音識別技術(shù)的發(fā)展歷程

汽車玩家 ? 來源:旺龍ITLONG、eepw、個人圖書 ? 作者:旺龍ITLONG、eepw、個 ? 2022-02-07 10:43 ? 次閱讀

語音識別,通常稱為自動語音識別,主要是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機(jī)可讀的輸入,也有可能是按鍵、二進(jìn)制編碼或者字符序列。但是,我們一般理解的語音識別其實都是狹義的語音轉(zhuǎn)文字的過程,簡稱語音轉(zhuǎn)文本識別,主要是識別和確認(rèn)發(fā)出語音的人而非其中所包含的內(nèi)容。

語音識別的目的就是讓機(jī)器聽懂人類口述的語言,包括了兩方面的含義:一是逐字逐句聽懂而不是轉(zhuǎn)化成書面的語言文字;二是對口述語言中所包含的命令或請求加以領(lǐng)會,做出正確回應(yīng),而不僅僅只是拘泥于所有詞匯的正確轉(zhuǎn)換。

語音識別系統(tǒng)根據(jù)對輸入語音的限制分類,可以將識別系統(tǒng)分為三類:

①特定人語音識別系統(tǒng),僅考慮對于專人的話音進(jìn)行識別。

②非特定人語音系統(tǒng),識別的語音與人無關(guān),通常要用大量不同人的語音數(shù)據(jù)庫對識別系統(tǒng)進(jìn)行學(xué)習(xí)。

③多人的識別系統(tǒng),通常能識別一組人的語音,或者成為特定組語音識別系統(tǒng),該系統(tǒng)僅要求對要識別的那組人的語音進(jìn)行訓(xùn)練。

根據(jù)從說話的方式考慮,也可以將識別系統(tǒng)分為三類:

①孤立詞語音識別系統(tǒng),孤立詞識別系統(tǒng)要求輸入每個詞后要停頓。

②連接詞語音識別系統(tǒng),連接詞輸入系統(tǒng)要求對每個詞都清楚發(fā)音,一些連音現(xiàn)象開始出現(xiàn)。

③連續(xù)語音識別系統(tǒng),連續(xù)語音輸入是自然流利的連續(xù)語音輸入,大量連音和變音會出現(xiàn)。

在過去5-10年,隨著技術(shù)快速迭代,語音識別市場在我國得到飛快發(fā)展,目前處于深度神經(jīng)網(wǎng)絡(luò)階段。如今,語音識別主流廠商主要使用端到端的算法,在實驗環(huán)境準(zhǔn)確率可高達(dá)99%以上,為推動新基建發(fā)展,5G人工智能、云計算等作為輔助核心基礎(chǔ)設(shè)施的核心技術(shù)得到進(jìn)一步加速發(fā)展,帶動語音識別迎來迎來了更加廣闊的發(fā)展空間,智能家居智能音箱、智能車載和智能硬件等等都得到很好的廣泛應(yīng)用。

語音識別主要趨于遠(yuǎn)場化和融合化的方向發(fā)展,但在遠(yuǎn)場可靠性還有很多難點沒有突破,比如多輪交互、多人噪雜等場景還有待突破,還有需求較為迫切的人聲分離等技術(shù)。新的技術(shù)應(yīng)該徹底解決這些問題,讓機(jī)器聽覺遠(yuǎn)超人類的感知能力。這不能僅僅只是算法的進(jìn)步,需要整個產(chǎn)業(yè)鏈的共同技術(shù)升級,包括更為先進(jìn)的傳感器和算力更強(qiáng)的芯片。

單從遠(yuǎn)場語音識別技術(shù)來看,仍然存在很多挑戰(zhàn),包括:

回聲消除技術(shù)。由于喇叭非線性失真的存在,單純依靠信號處理手段很難將回聲消除干凈,這也阻礙了語音交互系統(tǒng)的推廣,現(xiàn)有的基于深度學(xué)習(xí)的回聲消除技術(shù)都沒有考慮相位信息,直接求取的是各個頻帶上的增益,能否利用深度學(xué)習(xí)將非線性失真進(jìn)行擬合,同時結(jié)合信號處理手段可能是一個好的方向。

噪聲下的語音識別仍有待突破。信號處理擅長處理線性問題,深度學(xué)習(xí)擅長處理非線性問題,而實際問題一定是線性和非線性的疊加,因此一定是兩者融合才有可能更好地解決噪聲下的語音識別問題。

語音識別的目的是讓機(jī)器可以理解人類,因此轉(zhuǎn)換成文字并不是最終的目的,如何將語音識別和語義理解結(jié)合起來可能是未來更為重要的一個方向。語音識別里的LSTM已經(jīng)考慮了語音的歷史時刻信息,但語義理解需要更多的歷史信息才能有幫助,因此如何將更多上下文會話信息傳遞給語音識別引擎是一個難題。

讓機(jī)器聽懂人類語言,僅靠聲音信息還不夠,“聲光電熱力磁”這些物理傳感手段,下一步必然都要融合在一起,只有這樣機(jī)器才能感知世界的真實信息,這是機(jī)器能夠?qū)W習(xí)人類知識的前提條件;而且,機(jī)器必然要超越人類的五官,能夠看到人類看不到的世界,聽到人類聽不到的世界。

未來,相信在國家政策的強(qiáng)力扶持下,能夠加速在垂直行業(yè)的滲透和布局,也相信在供應(yīng)商和開發(fā)者共同努力下,語音識別技術(shù)能夠更好地與其他語音交互技術(shù)及軟件功能融合,為消費者提供更優(yōu)質(zhì)的體驗。

文章整合自:旺龍ITLONG、eepw、個人圖書館

審核編輯:鄢孟繁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音識別
    +關(guān)注

    關(guān)注

    38

    文章

    1739

    瀏覽量

    112661
  • 機(jī)器
    +關(guān)注

    關(guān)注

    0

    文章

    782

    瀏覽量

    40729
  • 二進(jìn)制編碼
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    3051
收藏 人收藏

    評論

    相關(guān)推薦

    語音識別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用

    語音識別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用已經(jīng)越來越廣泛,為醫(yī)療服務(wù)帶來了諸多便利和效率提升。以下是對語音識別技術(shù)
    的頭像 發(fā)表于 11-26 09:35 ?336次閱讀

    語音識別與自然語言處理的關(guān)系

    在人工智能的快速發(fā)展中,語音識別和自然語言處理(NLP)成為了兩個重要的技術(shù)支柱。語音識別
    的頭像 發(fā)表于 11-26 09:21 ?382次閱讀

    語音識別技術(shù)的應(yīng)用與發(fā)展

    語音識別技術(shù)發(fā)展可以追溯到20世紀(jì)50年代,但直到近年來,隨著計算能力的提升和機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,這項
    的頭像 發(fā)表于 11-26 09:20 ?453次閱讀

    ASR語音識別技術(shù)應(yīng)用

    ASR(Automatic Speech Recognition)語音識別技術(shù),是計算機(jī)科學(xué)與人工智能領(lǐng)域的重要突破,能將人類語音轉(zhuǎn)換為文本,廣泛應(yīng)用于智能家居、醫(yī)療、交通等多個領(lǐng)域。
    的頭像 發(fā)表于 11-18 15:12 ?638次閱讀

    直徑測量工具的發(fā)展歷程

    關(guān)鍵字:直徑測量,工業(yè)直徑測量設(shè)備,線性尺量器,光電測徑儀, 直徑測量工具的發(fā)展歷程是一個悠久且不斷創(chuàng)新的過程,它隨著科學(xué)技術(shù)的進(jìn)步而不斷演變。以下是直徑測量工具發(fā)展
    發(fā)表于 10-10 16:55

    NAND閃存的發(fā)展歷程

    NAND閃存的發(fā)展歷程是一段充滿創(chuàng)新與突破的歷程,它自誕生以來就不斷推動著存儲技術(shù)的進(jìn)步。以下是對NAND閃存發(fā)展
    的頭像 發(fā)表于 08-10 16:32 ?1290次閱讀

    語音識別和自然語言處理的區(qū)別和聯(lián)系

    Recognition) 1. 定義 語音識別,又稱為自動語音識別(Automatic Speech Recognition, ASR),是指將人類的
    的頭像 發(fā)表于 07-05 10:09 ?1754次閱讀

    人工智能的語音識別技術(shù)詳解

    隨著科技的飛速發(fā)展,人工智能(AI)技術(shù)已經(jīng)滲透到我們生活的方方面面,其中語音識別技術(shù)作為AI領(lǐng)域的重要分支,更是以其獨特的魅力和廣泛的應(yīng)用
    的頭像 發(fā)表于 07-01 11:39 ?1249次閱讀

    智能消毒柜語音識別芯片推動智能家居技術(shù)發(fā)展

    智能消毒柜語音識別芯片,作為現(xiàn)代智能家居技術(shù)的重要一環(huán),其背后蘊含著豐富的技術(shù)背景與廣泛的功能應(yīng)用。這款芯片,如同一個敏銳的聽覺器官,時刻準(zhǔn)備捕捉并理解用戶的
    的頭像 發(fā)表于 05-29 13:28 ?375次閱讀
    智能消毒柜<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片推動智能家居<b class='flag-5'>技術(shù)發(fā)展</b>

    語音識別技術(shù)歷程及工作原理

    語音識別的本質(zhì)是一種基于語音特征參數(shù)的模式識別,即通過學(xué)習(xí),系統(tǒng)能夠把輸入的語音按一定模式進(jìn)行分類,進(jìn)而依據(jù)判定準(zhǔn)則找出最佳匹配結(jié)果。
    的頭像 發(fā)表于 03-22 16:58 ?3209次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>的<b class='flag-5'>技術(shù)</b><b class='flag-5'>歷程</b>及工作原理

    車內(nèi)語音識別技術(shù)在智能駕駛中的應(yīng)用與前景

    一、引言 隨著智能駕駛技術(shù)的快速發(fā)展,車內(nèi)語音識別技術(shù)逐漸成為智能駕駛領(lǐng)域的研究熱點。語音
    的頭像 發(fā)表于 02-19 11:46 ?825次閱讀

    車內(nèi)語音識別技術(shù):智能駕駛的核心要素

    一、引言 隨著科技的飛速發(fā)展,智能駕駛已經(jīng)成為未來出行的趨勢。作為智能駕駛的關(guān)鍵技術(shù)之一,車內(nèi)語音識別技術(shù)發(fā)揮著越來越重要的作用。它不僅提升
    的頭像 發(fā)表于 02-19 11:42 ?764次閱讀

    車內(nèi)語音識別技術(shù):智能駕駛的革新之源

    一、引言 隨著科技的飛速發(fā)展,智能駕駛已經(jīng)成為現(xiàn)代交通領(lǐng)域的熱門話題。作為智能駕駛的關(guān)鍵技術(shù)之一,車內(nèi)語音識別技術(shù)正在改變我們對駕駛的認(rèn)知。
    的頭像 發(fā)表于 02-19 10:10 ?446次閱讀

    車內(nèi)語音識別技術(shù):重塑智能駕駛的未來

    一、引言 隨著科技的飛速發(fā)展,智能駕駛已經(jīng)成為未來交通的必然趨勢。作為智能駕駛的關(guān)鍵技術(shù)之一,車內(nèi)語音識別技術(shù)正逐漸成為研究的熱點。它不僅提
    的頭像 發(fā)表于 02-19 10:09 ?651次閱讀

    語音數(shù)據(jù)集:智能駕駛中車內(nèi)語音識別技術(shù)的基石

    一、引言 在智能駕駛中,車內(nèi)語音識別技術(shù)發(fā)揮著越來越重要的作用。語音數(shù)據(jù)集作為這一技術(shù)的基石,其質(zhì)量和規(guī)模對
    的頭像 發(fā)表于 01-31 16:07 ?556次閱讀