1. 用于語(yǔ)音情緒識(shí)別的基于對(duì)抗學(xué)習(xí)的說話人無關(guān)的表示
嘗試解決的問題:
在語(yǔ)音情緒識(shí)別任務(wù)中,會(huì)面臨到要測(cè)試的說話人未出現(xiàn)在訓(xùn)練集中的這個(gè)問題,本文嘗試運(yùn)用TDNN+LSTM作為特征提取部分,再通過對(duì)抗學(xué)習(xí)的方法來做到讓模型可以對(duì)說話人身份不敏感,從模型上來說,該對(duì)抗訓(xùn)練的思想就是將特征提取器提取到的特征同時(shí)輸入到說話人身份分類器和情緒識(shí)別分類器,對(duì)抗訓(xùn)練的損失函數(shù)是讓說話人身份分類器的損失達(dá)到最大,讓情緒識(shí)別分類器的損失達(dá)到最小,這樣以后,無論是哪個(gè)說話人的語(yǔ)音,經(jīng)過特征提取那部分以后,就沒有身份這一區(qū)別了。
如果有讀者閱讀過論文《Domain adversarial training of neural networks》,那么對(duì)DAT這個(gè)名詞就不陌生了,即遷移學(xué)習(xí)中的跨域?qū)W習(xí),比如我現(xiàn)在有A領(lǐng)域的數(shù)據(jù),并且該數(shù)據(jù)已經(jīng)被標(biāo)記好類別,同時(shí)也有B領(lǐng)域數(shù)據(jù),但是未進(jìn)行標(biāo)記,如果我希望充分利用B數(shù)據(jù),目標(biāo)是進(jìn)行分類,該怎么利用呢?我們只需要三個(gè)模塊結(jié)合對(duì)抗學(xué)習(xí)即可完成,分別是特征提取器+域識(shí)別器+分類器,當(dāng)域識(shí)別器已經(jīng)無法正確判斷的時(shí)候,說明特征提取器已經(jīng)完成了身份融合的效果,這個(gè)時(shí)候訓(xùn)練分類器即可。
在本篇語(yǔ)音情緒識(shí)別中,作者所提出的模型如下圖所示,輸入音頻的MFCC特征經(jīng)過TDNN網(wǎng)絡(luò)(由卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn))和BiLSTM網(wǎng)絡(luò)得到新的特征分布,再將此特征分布同時(shí)輸送到情緒識(shí)別器得到情緒種類y和說話人身份識(shí)別器得到身份s。
作者嘗試運(yùn)用了兩種訓(xùn)練方法,一種是domain adversial training,即DAT;另一種是cross gradient training,即CGT。下面我將分別解釋這兩種訓(xùn)練算法。
DAT
如前所述,DAT是通過對(duì)抗學(xué)習(xí)來使得網(wǎng)絡(luò)具備跨域的能力,其損失函數(shù)如下,可以看到,對(duì)于身份識(shí)別器而言,它的損失函數(shù)前面乘了一個(gè)因子并且取了負(fù)號(hào),這使得網(wǎng)絡(luò)可以具備身份融合的作用,從而專注于情緒分類。
CGT
CGT是另外一種解決跨域?qū)W習(xí)的數(shù)據(jù)增強(qiáng)技巧,它通過將梯度傳到輸入數(shù)據(jù)上,于是情緒識(shí)別網(wǎng)絡(luò)可以訓(xùn)練原數(shù)據(jù)和增強(qiáng)后的數(shù)據(jù),這樣就可以使得模型具備學(xué)習(xí)跨域的變化特征進(jìn)而可以適應(yīng)未知的測(cè)試數(shù)據(jù)集。CGT的數(shù)據(jù)增強(qiáng)技巧和損失函數(shù)如下,其中前兩項(xiàng)是增強(qiáng)后的新數(shù)據(jù),最后是參數(shù)更新公式。
作者基于本模型和兩種訓(xùn)練技巧分別在IEMOCAP數(shù)據(jù)集和SpeechOcean中文大數(shù)據(jù)集上做了測(cè)試,所用的具體模型結(jié)構(gòu)如下所示,實(shí)驗(yàn)結(jié)果表明,在IEMOCAP小數(shù)據(jù)集上,相比于基線模型,DAT提高了5.6%,CGT提高了7.4%;但是在SpeechOcean 250說話人的中文大數(shù)據(jù)集上,DAT提高了9.8%,CGT的性能不及基線模型。
同時(shí),作者畫出了通過DAT訓(xùn)練的經(jīng)過特征提取器得到的特征分布的t-SNE降維表示,如下圖所示,左邊是情緒類別,右邊是身份類別,可以看到身份標(biāo)簽已經(jīng)很好地被融合在一起。
2. 基于濾波和深度神經(jīng)網(wǎng)絡(luò)的聲源增強(qiáng)
參考文獻(xiàn):
data-driven design of perfect reconstruction filterbank for dnn-based sound source enhancement
鏈接:
https://arxiv.org/abs/1903.08876
單位:
早稻田大學(xué) & 日本電話電報(bào)公司
嘗試解決的問題:
傳統(tǒng)的聲源增強(qiáng)(Sound-source enhancement,SSE)的做法是首先將含噪音的信號(hào)進(jìn)行STFT變換得到時(shí)頻圖,再借助深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征變換,將得到的新的時(shí)頻圖與目標(biāo)時(shí)頻圖進(jìn)行求均方差,基于此均方差來訓(xùn)練神經(jīng)網(wǎng)絡(luò)的參數(shù)。訓(xùn)練好網(wǎng)絡(luò)以后,將推理得到的時(shí)頻圖通過ISTFT變換到音頻,即可得到增強(qiáng)的音頻信號(hào)。這種做法的缺點(diǎn)按照文中的描述就是:
For example, MSE assumes that the error of all frequency bins has zero means and uniform variance, which cannot be met in usual situations, unfortunately.
按照筆者的理解就是訓(xùn)練均方差目標(biāo)函數(shù)得確保數(shù)據(jù)中每個(gè)頻率倉(cāng)的均值和方差一樣,因?yàn)橹挥羞@樣訓(xùn)練才比較有效參數(shù)才可以穩(wěn)定地更新,但是實(shí)際上,我們?cè)谟?jì)算STFT的時(shí)候,并沒有考慮到所有音頻的個(gè)體差異,本文嘗試解決的就是這里的維度上的統(tǒng)計(jì)均勻的問題,DNN的框架是沒有變的,整體框架可以參見下圖的對(duì)比:
首先,傳統(tǒng)的STFT算法作用到一個(gè)信號(hào)x上可以用如下公式描述:
這里得到的X就是該信號(hào)的時(shí)頻信息,其中ω是頻率索引,k是幀索引。我們知道,X是由目標(biāo)信號(hào)和噪音信號(hào)共同組成的,根據(jù)傅里葉變換的可加性,可知:
為了得到目標(biāo)時(shí)頻,我們?cè)赬[ω,k]的基礎(chǔ)上作用一個(gè)T-F遮罩G[ω,k],該T-F遮罩一般使用深度神經(jīng)網(wǎng)絡(luò)M來實(shí)現(xiàn),于是整個(gè)模型的損失函數(shù)可以寫成如下形式:
但是基于MSE的訓(xùn)練算法有一個(gè)數(shù)據(jù)上的缺陷,因?yàn)镸SE的前提假設(shè)是各個(gè)維度的數(shù)據(jù)分布要保持一致,但這在實(shí)際中是很難保證的,因無論是聲源還是噪聲都有著不均勻的頻譜分布,舉個(gè)例子,由于高頻區(qū)域音頻較少,功率譜較小,誤差變化比較小,因而高頻區(qū)域要比低頻區(qū)域更難訓(xùn)練。這個(gè)時(shí)候,對(duì)損失函數(shù)做一個(gè)加權(quán)是合理的想法,該權(quán)重應(yīng)該是自適應(yīng)頻率的,并且與頻率誤差的標(biāo)準(zhǔn)差成反比,也就是說誤差標(biāo)準(zhǔn)差越小的頻率,我們需要多重視一下它的損失函數(shù)。
其中,權(quán)重的計(jì)算公式如下:
但是這樣又帶來一個(gè)問題,因?yàn)楣β首V較小的頻率區(qū)域權(quán)重比較大,故模型對(duì)那些區(qū)域的噪聲特別敏感,那么,算法的有效性就降低了。
本文作者提出的改進(jìn)的思路是保持損失函數(shù)不變,而對(duì)STFT部分進(jìn)行改進(jìn),公式如下,作者將原公式中的ω定義成了φ(ω)的倒數(shù)的形式,這樣就可以自定義頻率的量級(jí),這里的φ函數(shù)稱之為頻率扭曲函數(shù)。
那么如何設(shè)計(jì)這里的頻率扭曲函數(shù)φ呢?通過對(duì)誤差的功率譜密度進(jìn)行累計(jì)求和,依次從低頻到高頻,并加上一個(gè)規(guī)則化因子:
本文中所用的特征變換網(wǎng)絡(luò)的結(jié)構(gòu)如下表所示,分別是全連接神經(jīng)網(wǎng)絡(luò)+兩層雙向LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)+全連接分類網(wǎng)絡(luò),以輸出目標(biāo)頻譜。
最后作者將此模型運(yùn)用到以WSJ-0作為目標(biāo)數(shù)據(jù)集,以CHiME-3作為噪聲來源所構(gòu)成的四套數(shù)據(jù)上,即通過構(gòu)建含噪音頻-清晰音頻配對(duì)來作為訓(xùn)練樣本,得到的實(shí)驗(yàn)結(jié)果如下,圖中的數(shù)值代表信噪比,數(shù)值越大,表明信噪比越高,即增強(qiáng)效果越好。
總體而言,這篇文章是基于平行語(yǔ)料和深度神經(jīng)網(wǎng)絡(luò),對(duì)語(yǔ)音增強(qiáng)中的輸入頻譜的預(yù)處理算法進(jìn)行改進(jìn),以解決基于均方差訓(xùn)練中可能會(huì)出現(xiàn)的訓(xùn)練不穩(wěn)定的問題。以后的推送中將會(huì)看到,對(duì)于語(yǔ)音增強(qiáng)或語(yǔ)音分離,我們甚至可以采用非平行語(yǔ)料來做。
3. 用于語(yǔ)音韻律、頻譜可視化的在線網(wǎng)頁(yè)平臺(tái)
參考文獻(xiàn):
CRAFT: A Multifunction Online Platform for Speech Prosody Visualisation
鏈接:
https://arxiv.org/abs/1903.08718
單位:
比勒費(fèi)爾德大學(xué)
demo體驗(yàn)網(wǎng)址:
http://wwwhomes.uni-bielefeld.de/gibbon/CRAFT/
嘗試解決的問題:
提供一個(gè)更加友好的基頻(各種不同的實(shí)現(xiàn)算法)、頻譜包絡(luò)可視化對(duì)比的在線平臺(tái)。
這里我們先回顧幾個(gè)聲學(xué)頻譜分析中的概念:
基頻:一般我們對(duì)一個(gè)音頻作短時(shí)傅里葉變化并畫出時(shí)頻圖的時(shí)候,時(shí)頻圖上會(huì)出現(xiàn)很多條橫條紋,而頻率范圍最小的那個(gè)橫條紋一般可以認(rèn)為就是基頻的值;
諧波:除了基頻那個(gè)橫條紋以外,其他橫條紋就是各次諧波;
共振峰:頻譜上包絡(luò)的峰值;
本文中介紹的demo如下圖所示,其中包含基頻估計(jì)的參數(shù)設(shè)計(jì)、振幅和頻率調(diào)制、頻率解調(diào)制、濾波等可視化窗口。
-
分類器
+關(guān)注
關(guān)注
0文章
152瀏覽量
13207 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24767 -
遷移學(xué)習(xí)
+關(guān)注
關(guān)注
0文章
74瀏覽量
5574
原文標(biāo)題:語(yǔ)音情緒識(shí)別|聲源增強(qiáng)|基頻可視化
文章出處:【微信號(hào):DeepLearningDigest,微信公眾號(hào):深度學(xué)習(xí)每日摘要】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論