0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語(yǔ)音識(shí)別的降噪思路和原因總結(jié)

電子工程師 ? 來(lái)源:博客園 ? 2021-03-29 09:20 ? 次閱讀

噪聲問(wèn)題一直是語(yǔ)音識(shí)別的一個(gè)老大難的問(wèn)題,在理想的實(shí)驗(yàn)室的環(huán)境下,識(shí)別效果已經(jīng)非常好了,之前聽很多音頻算法工程師抱怨,在給識(shí)別做降噪時(shí),經(jīng)常發(fā)現(xiàn)WER不降反升,降低了識(shí)別率,有點(diǎn)莫名其妙,又無(wú)處下手。

剛好,前段時(shí)間調(diào)到了AIlab部門,有機(jī)會(huì)接觸這塊,改善語(yǔ)音識(shí)別的噪聲問(wèn)題,雖然在此之前,詢問(wèn)過(guò)同行業(yè)的朋友,單通道近場(chǎng)下,基本沒有太大作用,有時(shí)反而起到反作用,但是自己還是想親身實(shí)踐一下,至少找到這些方法失效的原因,看看是否在這些失敗的原因里面,改進(jìn)下思路,可能有新的發(fā)現(xiàn);同時(shí)去Ailab,順帶把深度學(xué)習(xí)降噪實(shí)踐一把,就算在ASR沒有效果,以后還能用在語(yǔ)音通信這個(gè)領(lǐng)域。

任務(wù)的要求是保證聲學(xué)模型不變動(dòng)的情況下,即不重新訓(xùn)練聲學(xué)模型,即單純利用降噪來(lái)改善那些環(huán)境惡劣的樣本,同時(shí)保證不干擾純凈語(yǔ)音或者弱噪聲的語(yǔ)音場(chǎng)景,所以非常具有挑戰(zhàn)性。

為了趕項(xiàng)目,用自己非常熟悉的各種傳統(tǒng)的降噪方法:包括最小值跟蹤噪聲估計(jì),MCRA, IMCRA,等各種噪聲估計(jì)方法,以及開源項(xiàng)目 webrtc NS, AFE(ETSI ES 202 050 Advanced DSR Front-end Codec, two stages of Wiener filtering),剩下的任務(wù)就是調(diào)參,經(jīng)過(guò)很多次努力,基本沒有什么效果,相反WER還會(huì)有1%點(diǎn)左右的增加。

分析對(duì)比了降噪和沒有降噪的識(shí)別文本對(duì)比和頻譜分析,總結(jié)了以下這些原因,希望對(duì)后面的人有些參考意義:

1. DNN本身就有很強(qiáng)的抗噪性,在弱噪聲和純凈語(yǔ)音下,基本都不是問(wèn)題。

通常場(chǎng)景下,這點(diǎn)噪聲,用線上數(shù)據(jù)或者刻意加噪訓(xùn)練,是完全可以吸收掉的,只有在20db以下,含噪樣本的頻譜特征和純凈樣本的頻譜特征差異太大,用模型學(xué)習(xí)收斂就不太好,這時(shí)需要降噪前端。

2. 降噪對(duì)于純凈語(yǔ)音或者弱噪聲環(huán)境下,不可避免的對(duì)語(yǔ)音有所損傷,只有在惡劣的環(huán)境下,會(huì)起到非常明顯的作用。

傳統(tǒng)降噪是基于統(tǒng)計(jì)意義上面的一個(gè)處理,難以做到瞬時(shí)噪聲的精準(zhǔn)估計(jì),這個(gè)本身就是一個(gè)近似的,粗略模糊化的一個(gè)處理,即不可避免的對(duì)噪聲欠估計(jì)或者過(guò)估計(jì),本身難把握,保真語(yǔ)音,只去噪,如果噪聲水平很弱,這個(gè)降噪也沒有什么用或者說(shuō)沒有明顯作用,去噪力度大了,又會(huì)破壞語(yǔ)音??梢灶A(yù)見,根據(jù)測(cè)試集進(jìn)行調(diào)參,就像是在繩子上面玩雜技。

我們的測(cè)試樣本集,90%的樣本都在在20db以上,只有200來(lái)?xiàng)l的樣子,環(huán)境比較惡劣。所以通常起來(lái)反作用。

3. 降噪里面的很多平滑處理,是有利于改善聽感的,但是頻譜也變得模糊,這些特征是否能落到正確的類別空間里面,也是存在疑問(wèn)的。所以在前端降噪的基礎(chǔ)上,再過(guò)一遍聲學(xué)模型重新訓(xùn)練,應(yīng)該是有所作用的,但是訓(xùn)練一個(gè)聲學(xué)模型都要10來(lái)天,損失太大,也不滿足任務(wù)要求。

4. 傳統(tǒng)降噪,通常噪聲初始化會(huì)利用初始的前幾幀,而如果開頭是語(yǔ)音,那就會(huì)失真很明顯。

5. 估計(jì)出噪聲水平,在SNR低的情況下降噪,SNR高時(shí),不處理或者進(jìn)行弱處理,在中間水平,進(jìn)行軟處理,這個(gè)思路似乎可以行的通。

6. 用基于聲學(xué)特征的傳統(tǒng)降噪方法,嘗試過(guò),在測(cè)試集里面,有不到1%的WER降低。

7. 到底用什么量來(lái)指導(dǎo)降噪過(guò)程?

既然降噪沒法做好很好的跟蹤,處理的很理想。即不可能處理的很干凈,同時(shí)不能保證語(yǔ)音分量不會(huì)被損傷,即降噪和保證語(yǔ)音分量是個(gè)相互矛盾,同時(shí)也是一個(gè)權(quán)衡問(wèn)題。那其實(shí)換個(gè)角度,降噪主要是改善了聲學(xué)特征,讓原來(lái)受噪聲影響錯(cuò)分類的音素落到正確的音素類別,即降低CE。那么應(yīng)該直接將降噪和CE做個(gè)關(guān)聯(lián),用CE指導(dǎo)降噪過(guò)程參數(shù)的自適應(yīng)變化,在一個(gè)有代表性的數(shù)據(jù)集里面,有統(tǒng)計(jì)意義上的效果,可能不一定能改善聽感,處理的很干凈,但是在整體意義上,有能改善識(shí)別的。所以說(shuō)語(yǔ)音去噪模塊必須要和聲學(xué)前端聯(lián)合起來(lái)優(yōu)化,目標(biāo)是將去噪后的數(shù)據(jù)投影到聲學(xué)模塊接受的數(shù)據(jù)空間,而不是改善聽感,即優(yōu)化的目標(biāo)是降低聲學(xué)模型的CE,或者說(shuō)是降低整條鏈路的wer,所以用降噪網(wǎng)絡(luò)的LOSS除了本身的損失量,還應(yīng)綁定CE的LOSS自適應(yīng)去訓(xùn)練學(xué)習(xí)是比較合理的方案。也可以將降噪網(wǎng)絡(luò)看成和聲學(xué)模型是一個(gè)大網(wǎng)絡(luò),為CE服務(wù),當(dāng)然,這不一定是降噪網(wǎng)絡(luò),也可以是傳統(tǒng)的自適應(yīng)降噪方法,但是如果是基于kaldi開發(fā),里面涉及到的工程量是很大的。

8. 在整個(gè)語(yǔ)音識(shí)別體系中,由于聲學(xué)模型的強(qiáng)抗噪性,所以單通道下的前端降噪似乎沒有什么意義,1%左右的wer的改變,基本不影響整個(gè)大局,所以想要搞識(shí)別這塊的朋友,應(yīng)該先把重要的聲學(xué)模型,語(yǔ)言模型,解碼器,搞完之后,再來(lái)擼擼這塊,因?yàn)榧幢銢]有單獨(dú)的前端,整個(gè)識(shí)別大多數(shù)場(chǎng)景都是OK的,惡劣的場(chǎng)景比較少,一般場(chǎng)景大不了擴(kuò)增各種帶噪數(shù)據(jù)訓(xùn)練,也是可以的。

責(zé)任編輯:lq6

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    38

    文章

    1742

    瀏覽量

    112692
  • dnn
    dnn
    +關(guān)注

    關(guān)注

    0

    文章

    60

    瀏覽量

    9058
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【「嵌入式系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)」閱讀體驗(yàn)】+ 基于語(yǔ)音識(shí)別的智能杯墊

    項(xiàng)目二維碼下圖 該作品通過(guò)采集飲水?dāng)?shù)據(jù),多種交互方式,數(shù)據(jù)分析處理,提醒用戶定期飲水,達(dá)到保持健康的作用。 主要功能是語(yǔ)音識(shí)別。 ASR-PRO語(yǔ)音模塊是一款高度集成的智能語(yǔ)音
    發(fā)表于 01-02 18:15

    基于語(yǔ)音識(shí)別的智能會(huì)議系統(tǒng)具備哪些交互功能

    標(biāo)貝科技專注智能語(yǔ)音交互領(lǐng)域多年,在語(yǔ)音識(shí)別語(yǔ)音合成領(lǐng)域有著多項(xiàng)大型企業(yè)合作案例,標(biāo)貝與多個(gè)智能會(huì)議系統(tǒng)廠商合作,成功將語(yǔ)音
    的頭像 發(fā)表于 12-20 10:35 ?127次閱讀

    ASR與傳統(tǒng)語(yǔ)音識(shí)別的區(qū)別

    識(shí)別技術(shù)。 構(gòu)建更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,利用大量數(shù)據(jù)進(jìn)行訓(xùn)練。 提高了語(yǔ)音識(shí)別的準(zhǔn)確率和穩(wěn)定性。 傳統(tǒng)語(yǔ)音識(shí)別 : 通常依賴于聲學(xué)-語(yǔ)言模
    的頭像 發(fā)表于 11-18 15:22 ?503次閱讀

    ASR語(yǔ)音識(shí)別技術(shù)應(yīng)用

    語(yǔ)音識(shí)別技術(shù)應(yīng)用的分析: 一、ASR語(yǔ)音識(shí)別技術(shù)原理 ASR語(yǔ)音識(shí)別技術(shù)的基本原理是將人類
    的頭像 發(fā)表于 11-18 15:12 ?729次閱讀

    物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的語(yǔ)音識(shí)別方案_離線語(yǔ)音識(shí)別芯片分析

    01 物聯(lián)網(wǎng)系統(tǒng)中為什么要使用離線語(yǔ)音識(shí)別芯片 物聯(lián)網(wǎng)系統(tǒng)中使用離線語(yǔ)音識(shí)別芯片的原因主要基于以下幾個(gè)方面: 1、實(shí)時(shí)性與可靠性 實(shí)時(shí)性好:
    的頭像 發(fā)表于 09-26 17:56 ?633次閱讀
    物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>方案_離線<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>芯片分析

    什么是離線語(yǔ)音識(shí)別芯片?與在線語(yǔ)音識(shí)別的區(qū)別

    離線語(yǔ)音識(shí)別芯片適用于智能家電等,特點(diǎn)為小詞匯量、低成本、安全性高、響應(yīng)快,無(wú)需聯(lián)網(wǎng)。在線語(yǔ)音識(shí)別功能更廣泛、識(shí)別準(zhǔn)確率高,但依賴穩(wěn)定網(wǎng)絡(luò)。
    的頭像 發(fā)表于 07-22 11:33 ?415次閱讀

    什么是語(yǔ)音降噪?

    語(yǔ)音降噪就像一位技術(shù)“魔術(shù)師”,它能夠幫助我們從雜亂的背景噪音中提取出我們真正關(guān)心的聲音。想象一下,你正在嘈雜的宿舍里和家人視頻通話,宿舍里傳來(lái)了各種各樣的聲音,這時(shí)語(yǔ)音降噪就能幫你過(guò)
    的頭像 發(fā)表于 07-09 16:27 ?994次閱讀
    什么是<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>降噪</b>?

    如何設(shè)計(jì)人臉識(shí)別的神經(jīng)網(wǎng)絡(luò)

    人臉識(shí)別技術(shù)是一種基于人臉特征信息進(jìn)行身份識(shí)別的技術(shù),廣泛應(yīng)用于安全監(jiān)控、身份認(rèn)證、智能門禁等領(lǐng)域。神經(jīng)網(wǎng)絡(luò)是實(shí)現(xiàn)人臉識(shí)別的關(guān)鍵技術(shù)之一,本文將介紹如何設(shè)計(jì)人臉識(shí)別的神經(jīng)網(wǎng)絡(luò)。 人臉
    的頭像 發(fā)表于 07-04 09:20 ?673次閱讀

    語(yǔ)音識(shí)別設(shè)備環(huán)境噪音降噪處理模組A-59實(shí)測(cè)# #

    語(yǔ)音識(shí)別
    深圳德宇科技有限公司
    發(fā)布于 :2024年07月02日 09:35:56

    語(yǔ)音降噪的原理

    在專業(yè)音頻設(shè)備中,語(yǔ)音降噪是很重要的一個(gè)環(huán)節(jié)。隨著AI人工智能的快速發(fā)展,各種AI人工智能降噪方法應(yīng)運(yùn)而生。
    的頭像 發(fā)表于 06-03 17:21 ?2027次閱讀
    <b class='flag-5'>語(yǔ)音</b><b class='flag-5'>降噪</b>的原理

    USB AI話務(wù)語(yǔ)音降噪音頻方案

    USB AI話務(wù)語(yǔ)音降噪音頻方案
    的頭像 發(fā)表于 04-25 18:16 ?625次閱讀
    USB AI話務(wù)<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>降噪</b>音頻方案

    安信可推出了一款A(yù)I離線語(yǔ)音識(shí)別的產(chǎn)品—VC系列模組

    VC系列模組是安信可開發(fā)的一款A(yù)I離線語(yǔ)音識(shí)別的產(chǎn)品,主芯片是云知聲推出的離線語(yǔ)音識(shí)別芯片鋒鳥M(US516P6),具有高可靠性,通用性強(qiáng)的特點(diǎn)。
    的頭像 發(fā)表于 04-15 10:29 ?644次閱讀

    語(yǔ)音識(shí)別的技術(shù)歷程及工作原理

    語(yǔ)音識(shí)別的本質(zhì)是一種基于語(yǔ)音特征參數(shù)的模式識(shí)別,即通過(guò)學(xué)習(xí),系統(tǒng)能夠把輸入的語(yǔ)音按一定模式進(jìn)行分類,進(jìn)而依據(jù)判定準(zhǔn)則找出最佳匹配結(jié)果。
    的頭像 發(fā)表于 03-22 16:58 ?3277次閱讀
    <b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別的</b>技術(shù)歷程及工作原理

    語(yǔ)音數(shù)據(jù)集:智能駕駛中車內(nèi)語(yǔ)音識(shí)別技術(shù)的基石

    一、引言 在智能駕駛中,車內(nèi)語(yǔ)音識(shí)別技術(shù)發(fā)揮著越來(lái)越重要的作用。語(yǔ)音數(shù)據(jù)集作為這一技術(shù)的基石,其質(zhì)量和規(guī)模對(duì)語(yǔ)音識(shí)別的性能有著至關(guān)重要的影響
    的頭像 發(fā)表于 01-31 16:07 ?562次閱讀

    A-29降噪模塊針對(duì)語(yǔ)音識(shí)別產(chǎn)品應(yīng)用測(cè)試

    模塊語(yǔ)音識(shí)別
    深圳德宇科技有限公司
    發(fā)布于 :2024年01月11日 17:04:43