谷歌和Idiap研究所的研究人員訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò),能夠顯著降低多說話者信號(hào)的語音識(shí)別詞錯(cuò)誤率。
把一個(gè)人的聲音從嘈雜的人群中分離出來是大多數(shù)人潛意識(shí)里都會(huì)做的事情——這就是所謂的雞尾酒會(huì)效應(yīng)。像谷歌Home和亞馬遜的Echo這樣的智能揚(yáng)聲器實(shí)現(xiàn)分離人群中的聲音可能還要再經(jīng)歷一段時(shí)間,但多虧了AI,它們或許有一天能夠像人類一樣過濾掉聲音。
谷歌和位于Switerzland的Idiap研究所的研究人員發(fā)表在Arxiv上的一篇論文中描述了一種新的解決方案。他們訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)——說話者識(shí)別網(wǎng)絡(luò)(a speaker recognition network)和聲譜掩碼網(wǎng)絡(luò)(a spectrogram masking network)——這兩個(gè)網(wǎng)絡(luò)一起“顯著”降低了多說話者信號(hào)的語音識(shí)別詞錯(cuò)誤率(WER)。
他們的工作建立在麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室今年早些時(shí)候發(fā)表的一篇論文的基礎(chǔ)上,該論文描述了一個(gè)名為PixelPlayer的系統(tǒng),該系統(tǒng)能夠?qū)蝹€(gè)樂器的聲音從YouTube視頻中分離出來。
論文:
VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking
論文地址:
https://arxiv.org/pdf/1810.04826.pdf
在最新的論文中,研究人員寫道:“我們的任務(wù)是將一部分感興趣的說話者的聲音與所有其他說話者和聲音的共性分離開來。例如,這樣的子集可以由一個(gè)目標(biāo)揚(yáng)聲器對(duì)個(gè)人移動(dòng)設(shè)備發(fā)出語音查詢,或者由一個(gè)家庭成員對(duì)一個(gè)共享的家庭設(shè)備進(jìn)行交談而形成?!?/p>
研究人員的語音過濾系統(tǒng)分為兩部分,包括LSTM模型和卷積神經(jīng)網(wǎng)絡(luò)(只有一個(gè)LSTM層)。第一個(gè)采用預(yù)處理的語音采樣和輸出揚(yáng)聲器嵌入(即矢量形式的聲音表示)作為輸入,而后者預(yù)測(cè)來自嵌入的軟掩模或濾波器以及根據(jù)噪聲音頻計(jì)算的幅度譜圖。掩模用于生成增強(qiáng)幅度譜圖,當(dāng)與噪聲音頻的相位(聲波)組合并變換時(shí),產(chǎn)生增強(qiáng)的波形。
AI系統(tǒng)被訓(xùn)練以便最大限度地減少屏蔽幅度頻譜圖與從干凈音頻計(jì)算的目標(biāo)幅度頻譜圖之間的差異。
該團(tuán)隊(duì)為訓(xùn)練樣本提供了兩個(gè)數(shù)據(jù)集:(1)來自13.8萬名演講者的大約3400萬個(gè)匿名語音查詢?nèi)罩荆?2)開源語音庫LibriSpeech、VoxCeleb和VoxCeleb2的匯編。VoiceFilter網(wǎng)絡(luò)對(duì)來自CSTR VCTK數(shù)據(jù)集(由愛丁堡大學(xué)維護(hù)的一組語音數(shù)據(jù))和LibriSpeech的2338個(gè)貢獻(xiàn)者的語音樣本進(jìn)行了訓(xùn)練,并使用來自73名演講者的話語進(jìn)行評(píng)估。
在測(cè)試中,VoiceFilter在雙揚(yáng)聲器方案中將字錯(cuò)誤率從55.9%降低到23.4%。
研究人員寫道:“我們已經(jīng)證明了使用經(jīng)過專門訓(xùn)練的揚(yáng)聲器編碼器來調(diào)整語音分離任務(wù)的有效性。這樣的系統(tǒng)更適用于真實(shí)場(chǎng)景,因?yàn)樗恍枰孪戎罁P(yáng)聲器的數(shù)量……我們的系統(tǒng)完全依賴于音頻信號(hào),可以很容易地通過使用具有高度代表性的嵌入向量來推廣到未知的揚(yáng)聲器?!?/p>
-
谷歌
+關(guān)注
關(guān)注
27文章
6171瀏覽量
105489 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4772瀏覽量
100845 -
語音識(shí)別
+關(guān)注
關(guān)注
38文章
1742瀏覽量
112692
原文標(biāo)題:谷歌神經(jīng)網(wǎng)絡(luò)人聲分離技術(shù)再突破!詞錯(cuò)率低至23.4%
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論