0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí)將對音頻處理產(chǎn)生深遠(yuǎn)影響 亞馬遜團(tuán)隊(duì)深度噪聲抑制挑戰(zhàn)賽中獲勝

LiveVideoStack ? 來源:LiveVideoStack ? 作者:LiveVideoStack ? 2020-09-08 09:13 ? 次閱讀

該團(tuán)隊(duì)的非實(shí)時(shí)系統(tǒng)是性能最好的,而它的實(shí)時(shí)系統(tǒng)在整個(gè)系統(tǒng)中排名第三,在實(shí)時(shí)系統(tǒng)中排名第二,盡管只使用了4%的CPU核心。

文 / Arvindh Krishnaswamy 原文鏈接: https://www.amazon.science/blog/amazon-team-takes-first-place-in-interspeech-2020-deep-noise-suppression-challenge

電子語音通信中,噪音和混響不僅會損害語音清晰度,而且會導(dǎo)致聽者在長時(shí)間努力理解低質(zhì)量語音時(shí)感到疲勞。在COVID-19大流行期間,我們花在遠(yuǎn)程會議上的時(shí)間越來越多,這一問題比以往任何時(shí)候都更加重要。 在今年的Interspeech會議上的深度噪聲抑制挑戰(zhàn)便是為了幫助解決這個(gè)問題的一個(gè)嘗試,分別在實(shí)時(shí)語音增強(qiáng)和非實(shí)時(shí)語音增強(qiáng)上進(jìn)行比賽。在19個(gè)團(tuán)隊(duì)中,Amazon取得了最好的結(jié)果,在非實(shí)時(shí)賽道上獲得了第一名(階段1 |階段2-final),在實(shí)時(shí)賽道上獲得了第二名。

上面是一個(gè)有噪聲的語音樣本(上圖) 下面是被研究者的系統(tǒng)抑制了噪聲的同一個(gè)樣本(下圖) 為了滿足真實(shí)世界的需求,我們將實(shí)時(shí)輸入限制在CPU使用量的4%(在i7-8565U內(nèi)核上測量),這遠(yuǎn)遠(yuǎn)低于競賽所允許的最大限度。 然而,我們的實(shí)時(shí)輸入非常接近(0.03平均意見分?jǐn)?shù))的第一名,并且擊敗了其他非實(shí)時(shí)的輸入。 Amazon團(tuán)隊(duì)實(shí)時(shí)和非實(shí)時(shí)噪聲抑制結(jié)果的音頻示例可以在這里找到。 我們還發(fā)表了兩篇論文(paper1-offline | paper2-real)來更詳細(xì)地描述我們的技術(shù)方法。 在Interspeech中獲勝的技術(shù)已經(jīng)在Alexa通信公告和Drop in Everywhere功能中發(fā)布,并且從今天開始,我們的客戶也可以通過使用Amazon Chime蘋果macOS和微軟Windows客戶端來進(jìn)行視頻會議和在線會議。

優(yōu)化的感知 傳統(tǒng)的語音增強(qiáng)算法使用人工調(diào)整的語音和噪聲模型,通常假設(shè)噪聲是恒定的。 對于某些類型的噪音(例如汽車噪音),在噪音不太大或低混響的環(huán)境下,這種方法工作得相當(dāng)好。不幸的是,它們經(jīng)常在非平穩(wěn)噪音上失敗,比如鍵盤噪音和雜音。因此,研究人員轉(zhuǎn)向了深度學(xué)習(xí)方法。

語音增強(qiáng)不僅需要從噪音和混響中提取原始語音,而且需要以一種人類耳朵感覺自然和愉快的方式進(jìn)行。這使得自動回歸測試變得困難,并使深度學(xué)習(xí)語音增強(qiáng)系統(tǒng)的設(shè)計(jì)復(fù)雜化。 我們的實(shí)時(shí)系統(tǒng)實(shí)際上通過直接優(yōu)化了語音的感知特征(spectral envelope and voicing),利用了人類的感知因素同時(shí)忽略了與感知無關(guān)的方面。由此產(chǎn)生的算法產(chǎn)生了最先進(jìn)的語音質(zhì)量,同時(shí)保持非常高的計(jì)算效率。 對于非實(shí)時(shí)系統(tǒng),我們采取了一種不妥協(xié)的方法,使用改進(jìn)的U-Net深度卷積網(wǎng)絡(luò)從增強(qiáng)的語音壓縮每一點(diǎn)可能的質(zhì)量,從而贏得了輸入挑戰(zhàn)。

一描繪經(jīng)被允許使用的研究人員的實(shí)時(shí)系統(tǒng)的百分比中央處理器核心降噪后的一語音樣本的平均意見分?jǐn)?shù)(MOS)的變化的圖像 在深度噪聲抑制的挑戰(zhàn)中,經(jīng)過處理的音頻示例被盲發(fā)送給人類聽眾,由他們對其進(jìn)行評分,產(chǎn)生平均意見分?jǐn)?shù)(MOS)。 在實(shí)時(shí)應(yīng)用程序中,復(fù)雜性和質(zhì)量之間總是需要權(quán)衡的。 右邊的圖顯示了我們?nèi)绾瓮ㄟ^增加CPU需求來進(jìn)一步提高實(shí)時(shí)提交的質(zhì)量,或者通過犧牲一些質(zhì)量來進(jìn)一步節(jié)省CPU的使用。 紅點(diǎn)表示提交挑戰(zhàn)的實(shí)時(shí)系統(tǒng),圖像顯示了MOS分?jǐn)?shù)相對于不同CPU負(fù)載的變化。

人們普遍認(rèn)為,深度學(xué)習(xí)最終將對音頻處理產(chǎn)生深遠(yuǎn)影響。 雖然仍有很多挑戰(zhàn),比如數(shù)據(jù)增強(qiáng),感知相關(guān)的損失函數(shù)或者處理看不見的情況,但未來依然非常令人興奮。

原文標(biāo)題:亞馬遜團(tuán)隊(duì)在Interspeech 2020深度噪聲抑制挑戰(zhàn)賽中獲得第一名

文章出處:【微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10889

    瀏覽量

    212373
  • MOS
    MOS
    +關(guān)注

    關(guān)注

    32

    文章

    1279

    瀏覽量

    93993
  • 噪音
    +關(guān)注

    關(guān)注

    1

    文章

    170

    瀏覽量

    23922
  • 亞馬遜
    +關(guān)注

    關(guān)注

    8

    文章

    2672

    瀏覽量

    83457
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5510

    瀏覽量

    121334

原文標(biāo)題:亞馬遜團(tuán)隊(duì)在Interspeech 2020深度噪聲抑制挑戰(zhàn)賽中獲得第一名

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    EDA精英挑戰(zhàn)賽果公布!思爾芯“戰(zhàn)隊(duì)”薪火相承斬獲“麒麟杯”

    2024國研究生創(chuàng)芯大賽·EDA精英挑戰(zhàn)賽12月7-8日,2024國研究生創(chuàng)芯大賽·EDA精英挑戰(zhàn)賽(原“集成電路EDA設(shè)計(jì)精英挑戰(zhàn)賽
    的頭像 發(fā)表于 12-11 01:03 ?387次閱讀
    EDA精英<b class='flag-5'>挑戰(zhàn)賽</b><b class='flag-5'>賽</b>果公布!思爾芯“戰(zhàn)隊(duì)”薪火相承斬獲“麒麟杯”

    GPU在深度學(xué)習(xí)的應(yīng)用 GPUs在圖形設(shè)計(jì)的作用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心部分,已經(jīng)成為推動技術(shù)進(jìn)步的重要力量。GPU(圖形處理單元)在深度學(xué)習(xí)
    的頭像 發(fā)表于 11-19 10:55 ?612次閱讀

    深度學(xué)習(xí)RNN的優(yōu)勢與挑戰(zhàn)

    循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是深度學(xué)習(xí)領(lǐng)域中處理序列數(shù)據(jù)的基石。它們通過在每個(gè)時(shí)間步長上循環(huán)傳遞信息,使得網(wǎng)絡(luò)能夠捕捉時(shí)間序列數(shù)據(jù)的長期依賴關(guān)系。然而,盡管RNN在某些任務(wù)上表現(xiàn)出色,它們
    的頭像 發(fā)表于 11-15 09:55 ?534次閱讀

    NPU在深度學(xué)習(xí)的應(yīng)用

    設(shè)計(jì)的硬件加速器,它在深度學(xué)習(xí)的應(yīng)用日益廣泛。 1. NPU的基本概念 NPU是一種專門針對深度學(xué)習(xí)算法優(yōu)化的
    的頭像 發(fā)表于 11-14 15:17 ?722次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識別 圖像識別是深度
    的頭像 發(fā)表于 10-27 11:13 ?435次閱讀

    AI深度噪音抑制技術(shù)

    AI深度噪音抑制技術(shù)通過深度學(xué)習(xí)算法實(shí)現(xiàn)了對音頻噪聲
    的頭像 發(fā)表于 10-17 10:45 ?692次閱讀
    AI<b class='flag-5'>深度</b>噪音<b class='flag-5'>抑制</b>技術(shù)

    FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?

    的發(fā)展前景較為廣闊,但也面臨一些挑戰(zhàn)。以下是一些關(guān)于 FPGA 在深度學(xué)習(xí)應(yīng)用前景的觀點(diǎn),僅供參考: ? 優(yōu)勢方面: ? 高度定制化的計(jì)算架構(gòu):FPGA 可以根據(jù)
    發(fā)表于 09-27 20:53

    深度學(xué)習(xí)算法在集成電路測試的應(yīng)用

    隨著半導(dǎo)體技術(shù)的快速發(fā)展,集成電路(IC)的復(fù)雜性和集成度不斷提高,對測試技術(shù)的要求也日益增加。深度學(xué)習(xí)算法作為一種強(qiáng)大的數(shù)據(jù)處理和模式識別工具,在集成電路測試領(lǐng)域展現(xiàn)出了巨大的應(yīng)用潛力。本文將從
    的頭像 發(fā)表于 07-15 09:48 ?1091次閱讀

    深度學(xué)習(xí)的時(shí)間序列分類方法

    的發(fā)展,基于深度學(xué)習(xí)的TSC方法逐漸展現(xiàn)出其強(qiáng)大的自動特征提取和分類能力。本文將從多個(gè)角度對深度學(xué)習(xí)在時(shí)間序列分類的應(yīng)用進(jìn)行綜述,探討常用
    的頭像 發(fā)表于 07-09 15:54 ?1067次閱讀

    深度學(xué)習(xí)的無監(jiān)督學(xué)習(xí)方法綜述

    深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要分支,近年來在多個(gè)領(lǐng)域取得了顯著的成果,特別是在圖像識別、語音識別、自然語言處理等領(lǐng)域。然而,深度
    的頭像 發(fā)表于 07-09 10:50 ?846次閱讀

    深度學(xué)習(xí)的模型權(quán)重

    深度學(xué)習(xí)這一充滿無限可能性的領(lǐng)域中,模型權(quán)重(Weights)作為其核心組成部分,扮演著至關(guān)重要的角色。它們不僅是模型學(xué)習(xí)的基石,更是模型智能的源泉。本文將從模型權(quán)重的定義、作用、優(yōu)化、管理以及應(yīng)用等多個(gè)方面,深入探討
    的頭像 發(fā)表于 07-04 11:49 ?1586次閱讀

    深度學(xué)習(xí)的模型優(yōu)化與調(diào)試方法

    深度學(xué)習(xí)模型在訓(xùn)練過程,往往會遇到各種問題和挑戰(zhàn),如過擬合、欠擬合、梯度消失或爆炸等。因此,對深度學(xué)習(xí)
    的頭像 發(fā)表于 07-01 11:41 ?903次閱讀

    深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對比

    在人工智能的浪潮,機(jī)器學(xué)習(xí)深度學(xué)習(xí)無疑是兩大核心驅(qū)動力。它們各自以其獨(dú)特的方式推動著技術(shù)的進(jìn)步,為眾多領(lǐng)域帶來了革命性的變化。然而,盡管它們都屬于機(jī)器
    的頭像 發(fā)表于 07-01 11:40 ?1461次閱讀

    谷歌CEO皮查伊探討AI革命:影響深遠(yuǎn),AI將融入日常工作

    在訪談,主持人首先詢問皮查伊為何選擇使用谷歌的AI,他回應(yīng)稱,AI將對我們的生活產(chǎn)生深遠(yuǎn)影響?!癆I的應(yīng)用多種多樣,能提升用戶體驗(yàn),簡化工作流程,還能與AI進(jìn)行
    的頭像 發(fā)表于 05-28 15:00 ?595次閱讀

    FPGA在深度學(xué)習(xí)應(yīng)用或?qū)⑷〈鶪PU

    ,這使其在 AI 應(yīng)用面臨著一些挑戰(zhàn)。 Larzul 表示,想要解決這些問題的解決方案便是實(shí)現(xiàn)現(xiàn)場可編程門陣列 (FPGA),這也是他們公司的研究領(lǐng)域。FPGA 是一種處理器,可以在制造后定制
    發(fā)表于 03-21 15:19