該團(tuán)隊(duì)的非實(shí)時(shí)系統(tǒng)是性能最好的,而它的實(shí)時(shí)系統(tǒng)在整個(gè)系統(tǒng)中排名第三,在實(shí)時(shí)系統(tǒng)中排名第二,盡管只使用了4%的CPU核心。
文 / Arvindh Krishnaswamy 原文鏈接: https://www.amazon.science/blog/amazon-team-takes-first-place-in-interspeech-2020-deep-noise-suppression-challenge
在電子語音通信中,噪音和混響不僅會損害語音清晰度,而且會導(dǎo)致聽者在長時(shí)間努力理解低質(zhì)量語音時(shí)感到疲勞。在COVID-19大流行期間,我們花在遠(yuǎn)程會議上的時(shí)間越來越多,這一問題比以往任何時(shí)候都更加重要。 在今年的Interspeech會議上的深度噪聲抑制挑戰(zhàn)便是為了幫助解決這個(gè)問題的一個(gè)嘗試,分別在實(shí)時(shí)語音增強(qiáng)和非實(shí)時(shí)語音增強(qiáng)上進(jìn)行比賽。在19個(gè)團(tuán)隊(duì)中,Amazon取得了最好的結(jié)果,在非實(shí)時(shí)賽道上獲得了第一名(階段1 |階段2-final),在實(shí)時(shí)賽道上獲得了第二名。
上面是一個(gè)有噪聲的語音樣本(上圖) 下面是被研究者的系統(tǒng)抑制了噪聲的同一個(gè)樣本(下圖) 為了滿足真實(shí)世界的需求,我們將實(shí)時(shí)輸入限制在CPU使用量的4%(在i7-8565U內(nèi)核上測量),這遠(yuǎn)遠(yuǎn)低于競賽所允許的最大限度。 然而,我們的實(shí)時(shí)輸入非常接近(0.03平均意見分?jǐn)?shù))的第一名,并且擊敗了其他非實(shí)時(shí)的輸入。 Amazon團(tuán)隊(duì)實(shí)時(shí)和非實(shí)時(shí)噪聲抑制結(jié)果的音頻示例可以在這里找到。 我們還發(fā)表了兩篇論文(paper1-offline | paper2-real)來更詳細(xì)地描述我們的技術(shù)方法。 在Interspeech中獲勝的技術(shù)已經(jīng)在Alexa通信公告和Drop in Everywhere功能中發(fā)布,并且從今天開始,我們的客戶也可以通過使用Amazon Chime蘋果macOS和微軟Windows客戶端來進(jìn)行視頻會議和在線會議。
優(yōu)化的感知 傳統(tǒng)的語音增強(qiáng)算法使用人工調(diào)整的語音和噪聲模型,通常假設(shè)噪聲是恒定的。 對于某些類型的噪音(例如汽車噪音),在噪音不太大或低混響的環(huán)境下,這種方法工作得相當(dāng)好。不幸的是,它們經(jīng)常在非平穩(wěn)噪音上失敗,比如鍵盤噪音和雜音。因此,研究人員轉(zhuǎn)向了深度學(xué)習(xí)方法。
語音增強(qiáng)不僅需要從噪音和混響中提取原始語音,而且需要以一種人類耳朵感覺自然和愉快的方式進(jìn)行。這使得自動回歸測試變得困難,并使深度學(xué)習(xí)語音增強(qiáng)系統(tǒng)的設(shè)計(jì)復(fù)雜化。 我們的實(shí)時(shí)系統(tǒng)實(shí)際上通過直接優(yōu)化了語音的感知特征(spectral envelope and voicing),利用了人類的感知因素同時(shí)忽略了與感知無關(guān)的方面。由此產(chǎn)生的算法產(chǎn)生了最先進(jìn)的語音質(zhì)量,同時(shí)保持非常高的計(jì)算效率。 對于非實(shí)時(shí)系統(tǒng),我們采取了一種不妥協(xié)的方法,使用改進(jìn)的U-Net深度卷積網(wǎng)絡(luò)從增強(qiáng)的語音壓縮每一點(diǎn)可能的質(zhì)量,從而贏得了輸入挑戰(zhàn)。
一描繪經(jīng)被允許使用的研究人員的實(shí)時(shí)系統(tǒng)的百分比中央處理器核心降噪后的一語音樣本的平均意見分?jǐn)?shù)(MOS)的變化的圖像 在深度噪聲抑制的挑戰(zhàn)中,經(jīng)過處理的音頻示例被盲發(fā)送給人類聽眾,由他們對其進(jìn)行評分,產(chǎn)生平均意見分?jǐn)?shù)(MOS)。 在實(shí)時(shí)應(yīng)用程序中,復(fù)雜性和質(zhì)量之間總是需要權(quán)衡的。 右邊的圖顯示了我們?nèi)绾瓮ㄟ^增加CPU需求來進(jìn)一步提高實(shí)時(shí)提交的質(zhì)量,或者通過犧牲一些質(zhì)量來進(jìn)一步節(jié)省CPU的使用。 紅點(diǎn)表示提交挑戰(zhàn)的實(shí)時(shí)系統(tǒng),圖像顯示了MOS分?jǐn)?shù)相對于不同CPU負(fù)載的變化。
人們普遍認(rèn)為,深度學(xué)習(xí)最終將對音頻處理產(chǎn)生深遠(yuǎn)影響。 雖然仍有很多挑戰(zhàn),比如數(shù)據(jù)增強(qiáng),感知相關(guān)的損失函數(shù)或者處理看不見的情況,但未來依然非常令人興奮。
原文標(biāo)題:亞馬遜團(tuán)隊(duì)在Interspeech 2020深度噪聲抑制挑戰(zhàn)賽中獲得第一名
文章出處:【微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
cpu
+關(guān)注
關(guān)注
68文章
10889瀏覽量
212373 -
MOS
+關(guān)注
關(guān)注
32文章
1279瀏覽量
93993 -
噪音
+關(guān)注
關(guān)注
1文章
170瀏覽量
23922 -
亞馬遜
+關(guān)注
關(guān)注
8文章
2672瀏覽量
83457 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121334
原文標(biāo)題:亞馬遜團(tuán)隊(duì)在Interspeech 2020深度噪聲抑制挑戰(zhàn)賽中獲得第一名
文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論