由于語(yǔ)音分離已經(jīng)變成分類問(wèn)題,所以語(yǔ)音分離也變得非常重要,已經(jīng)在信號(hào)處理領(lǐng)域被研究了幾十年,數(shù)據(jù)驅(qū)動(dòng)的方法在語(yǔ)音處理領(lǐng)域也得到了廣泛研究。
語(yǔ)音分離的目標(biāo)是把目標(biāo)語(yǔ)音從背景干擾中分離出來(lái)。在信號(hào)處理中,語(yǔ)音分離屬于很基本的任務(wù)類型,應(yīng)用范圍很廣泛,包括聽(tīng)力假體、移動(dòng)通信、魯棒的自動(dòng)語(yǔ)音以及說(shuō)話人識(shí)別。人類聽(tīng)覺(jué)系統(tǒng)能輕易地將一個(gè)人的聲音和另一個(gè)人的分離開(kāi)來(lái)。即使在雞尾酒會(huì)那樣的聲音環(huán)境中,我們似乎也能毫不費(fèi)力地在其他人的說(shuō)話聲和環(huán)境噪聲的包圍中聽(tīng)到一個(gè)人的說(shuō)話內(nèi)容。因此語(yǔ)音分離問(wèn)題通常也被叫做「雞尾酒會(huì)問(wèn)題」(cocktail party problem),該術(shù)語(yǔ)由 Cherry 在他 1953 年那篇著名論文中提出。
人類最重要的交流方式就是語(yǔ)言,對(duì)我們來(lái)說(shuō),從背景干擾中分離出語(yǔ)音是至關(guān)重要的。感興趣的演講或者目標(biāo)談話經(jīng)常被其它來(lái)源的多余噪聲和表面反射產(chǎn)生的混響所干擾。雖然人類能輕易地分離語(yǔ)音,但事實(shí)證明,在這項(xiàng)基本任務(wù)中,構(gòu)建一個(gè)能夠媲美人類聽(tīng)覺(jué)系統(tǒng)的自動(dòng)化系統(tǒng)是很有挑戰(zhàn)性的。在 Cherry 1953 年出版的書(shū) 中,他觀察到:「目前為止沒(méi)有任何機(jī)器能解決『雞尾酒會(huì)問(wèn)題』。」很不幸的是,雖然本文提到的近期研究進(jìn)展已經(jīng)開(kāi)始解決這個(gè)問(wèn)題,但在我們這個(gè)領(lǐng)域中,他的結(jié)論一直保持了60 多年的正確性。
語(yǔ)音分離非常重要,已經(jīng)在信號(hào)處理領(lǐng)域被研究了幾十年。根據(jù)傳感器或麥克風(fēng)的數(shù)量,分離方法可分為單聲道方法(單個(gè)麥克風(fēng))和陣列方法(多個(gè)麥克風(fēng))。單聲道分離的兩個(gè)傳統(tǒng)方法是語(yǔ)音增強(qiáng) 和計(jì)算聽(tīng)覺(jué)場(chǎng)景分析(CASA)。語(yǔ)音增強(qiáng)方法分析語(yǔ)音和噪聲的全部數(shù)據(jù),然后經(jīng)過(guò)帶噪語(yǔ)音的噪聲估計(jì),進(jìn)而對(duì)清晰語(yǔ)音進(jìn)行估計(jì)。最簡(jiǎn)單以及應(yīng)用最廣泛的增強(qiáng)方法是頻譜相減法(spectral subtraction),其中估計(jì)噪聲的功率譜會(huì)從帶噪語(yǔ)音中刪去。為了估計(jì)背景噪聲,語(yǔ)音增強(qiáng)技術(shù)一般假定背景噪音是穩(wěn)定的,也就是說(shuō),其頻譜特性不會(huì)隨時(shí)間變化,或者至少比語(yǔ)音穩(wěn)定一些。CASA 建立在聽(tīng)覺(jué)場(chǎng)景分析的感知理論基礎(chǔ)上,利用聚類約束(grouping cue)如基音頻率(pitch)和起音(onset)。例如,tandem 算法通過(guò)交換 pitch 估計(jì)和基于 pitch 的聚類進(jìn)行語(yǔ)音分離 。
由兩個(gè)或更多的麥克風(fēng)組成的陣列使用不同的語(yǔ)音分離方法。波束成形,或者說(shuō)空間濾波器,通過(guò)恰當(dāng)?shù)年嚵薪Y(jié)構(gòu)增強(qiáng)從特定的方向到達(dá)的信號(hào),進(jìn)而削減來(lái)自其它方向的干擾 。最簡(jiǎn)單的波束成形是一種延遲-疊加技術(shù),能將來(lái)自目標(biāo)方向的多個(gè)麥克風(fēng)的信號(hào)以相同的相位相加,并根據(jù)相差削減來(lái)自其它方向的信號(hào)。噪聲的削減量取決于陣列的間隔、尺寸和結(jié)構(gòu),通常隨著麥克風(fēng)數(shù)量和陣列長(zhǎng)度的增加,削減量也會(huì)增加。顯然,當(dāng)目標(biāo)源和干擾源被共置,或者很靠近的時(shí)候,空間濾波器是無(wú)法應(yīng)用的。此外,在回聲場(chǎng)景中,波束成形的效用大幅降低,對(duì)聲源方向的判定變得模糊不清。
一種最近提出的方法將語(yǔ)音分離當(dāng)作一個(gè)監(jiān)督學(xué)習(xí)問(wèn)題。監(jiān)督語(yǔ)音分離的最初形成受 CASA 中時(shí)頻掩膜(time-frequency (T-F) masking)概念的啟發(fā)。CASA 的主要目標(biāo)是理想二值掩膜(ideal binary mask,IBM),表示目標(biāo)信號(hào)是否控制混合信號(hào)時(shí)頻表示中的一個(gè) T-F 單元。聽(tīng)力研究顯示,理想二值掩膜能夠顯著提高正常聽(tīng)力者(NH)和聽(tīng)力受損者(HI)在嘈雜環(huán)境中的語(yǔ)音理解能力。以 IBM 作為計(jì)算目標(biāo),則語(yǔ)音分離變成了二值分類問(wèn)題,這正是監(jiān)督學(xué)習(xí)的一種基本形式。在這種情況下,IBM 被當(dāng)做訓(xùn)練中的目標(biāo)信號(hào)或目標(biāo)函數(shù)。在測(cè)試中,學(xué)習(xí)機(jī)器的目的就是估計(jì) IBM,這也是監(jiān)督語(yǔ)音分離的第一訓(xùn)練目標(biāo)。
由于語(yǔ)音分離已經(jīng)變成分類問(wèn)題,因此數(shù)據(jù)驅(qū)動(dòng)的方法在語(yǔ)音處理領(lǐng)域得到了廣泛研究。在過(guò)去的十年內(nèi),通過(guò)運(yùn)用大型訓(xùn)練數(shù)據(jù)和增加計(jì)算資源,監(jiān)督語(yǔ)音分離大幅提高了最先進(jìn)性能。監(jiān)督分離從深度學(xué)習(xí)的發(fā)展中受益良多,這也是本文的主題。監(jiān)督語(yǔ)音分離算法可以大體上分為以下幾個(gè)部分:學(xué)習(xí)機(jī)器、訓(xùn)練目標(biāo)和聲學(xué)特征。本文,我們首先回顧這三個(gè)部分。然后介紹代表性算法,包括單聲道方法和基于陣列的算法。泛化作為監(jiān)督語(yǔ)音分離的特有議題,也將在本文中進(jìn)行討論。
為避免混淆,我們需要厘清本文使用的幾個(gè)相關(guān)術(shù)語(yǔ)。speech separation 或 speech segregation(語(yǔ)音分離)都指從背景干擾(可能包括非語(yǔ)音噪聲、干擾語(yǔ)音,或者都有,以及室內(nèi)混響)中分離目標(biāo)語(yǔ)音的任務(wù)。此外,「雞尾酒會(huì)問(wèn)題」(cocktail party problem)也指語(yǔ)音分離(speech separation)。語(yǔ)音增強(qiáng)或去噪(speech enhancement or denoising)指語(yǔ)音和非語(yǔ)音噪聲的分離。如果是多個(gè)說(shuō)話人的語(yǔ)音分離問(wèn)題,我們使用術(shù)語(yǔ)「多說(shuō)話人分離」(speaker separation)。
圖 1. 對(duì)混合了 -5 dB SNR 工廠噪聲的 TIMIT 音頻數(shù)據(jù)使用不同訓(xùn)練目標(biāo)圖示。
圖 2. 使用不同訓(xùn)練目標(biāo)的訓(xùn)練結(jié)果比較。(a)STOI。(b)PESQ。分別用清晰語(yǔ)音混合信噪比為-5dB、0dB、5dB 的工廠噪聲?! ?/p>
圖 3. DNN 進(jìn)行特征學(xué)習(xí)的圖示,使用線性 SVM 對(duì)學(xué)得的特征進(jìn)行 IBM 值估計(jì) 。
圖 4. 用于語(yǔ)音分離的二階 DNN(two-stage DNN)的圖示 。
圖 5. 語(yǔ)音增強(qiáng)中基于 DNN 的頻譜映射方法圖示 。
圖 6. 配置自動(dòng)編碼器以進(jìn)行無(wú)監(jiān)督調(diào)試的語(yǔ)音增強(qiáng) DNN 架構(gòu)。AE 堆疊在 DNN 的頂部作為純度檢測(cè)器,估計(jì)來(lái)自 DNN 的清晰語(yǔ)音。
圖 7. 基于 LSTM 的語(yǔ)音分離系統(tǒng)的結(jié)構(gòu)展示 。
圖 8. 前饋 DNN 和基于 LSTM 的 RNN 的 STOI 改進(jìn)。(a)信噪比為-5dB 的經(jīng)訓(xùn)練說(shuō)話人的結(jié)果。(b)信噪比為-5dB 的未訓(xùn)練說(shuō)話人的結(jié)果。
圖 9. 基于頻譜映射的語(yǔ)音混響削減 DNN 圖示 [45]。
圖 10. 語(yǔ)音混響削減的混響時(shí)間響應(yīng) DNN 結(jié)構(gòu)圖示
圖 11. 基于 DNN 的兩個(gè)說(shuō)話人分離方法圖示。
圖 12. 聽(tīng)力正常者和聽(tīng)力受損者傾聽(tīng)混合干擾語(yǔ)句的目標(biāo)語(yǔ)句并將目標(biāo)語(yǔ)句從中分離出來(lái)時(shí)的平均清晰度得分和標(biāo)準(zhǔn)偏差 。圖中展示了四種不同目標(biāo)-干擾比率的正確率百分比結(jié)果。
圖 14. 雙聲道分離算法的結(jié)構(gòu)圖示。
圖 15. 單聲道掩膜估計(jì)的 MVDR 波束成形器。
評(píng)論
查看更多