0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通過YouTube視頻中的圖像和聲音來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)

NVIDIA英偉達企業(yè)解決方案 ? 來源:未知 ? 作者:李倩 ? 2018-09-12 14:19 ? 次閱讀

如何從混雜的背景噪音中過濾出特定的聲音,這一“經(jīng)典雞尾酒會問題”有望在AI的幫助下得以解決。

因為我們的大腦可以專注于想聽到的內(nèi)容,所以人耳可以準(zhǔn)確地從嘈雜聲中分辨出特定的聲音。然而,基于機器的“聲源分離”技術(shù)多年來卻一直讓工程師們束手無策。麻省理工學(xué)院的研究人員正在利用MV(音樂短片)訓(xùn)練神經(jīng)網(wǎng)絡(luò),以便更好地定位聲音來源。

該團隊的深度學(xué)習(xí)系統(tǒng)可以“直接通過一些未經(jīng)標(biāo)記的YouTube視頻進行學(xué)習(xí),分辨出每種物體對應(yīng)的聲音,”麻省理工學(xué)院研究人員Hang Zhao說道。他也曾是NVIDIA研究部門的實習(xí)生。

Zhao認(rèn)為,該技術(shù)極具突破性,在語音、聽力學(xué)、音樂和機器人學(xué)領(lǐng)域均有廣泛的應(yīng)用。

通過“刷視頻”來學(xué)習(xí)

麻省理工學(xué)院開發(fā)出了一種新方法,即通過YouTube視頻中的圖像和聲音來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。他們的目標(biāo)是讓神經(jīng)網(wǎng)絡(luò)能夠精確定位視頻中圖像的位置(精確到像素級)。

該團隊將其系統(tǒng)稱為PixelPlayer,并通過YouTube上的MV對PixelPlayer進行了60個小時的訓(xùn)練。到目前為止,該系統(tǒng)已經(jīng)可以識別20多種樂器。

該團隊在麻省理工學(xué)院的計算機科學(xué)和人工智能實驗室 (Computer Science and Artificial Intelligence Lab) 開展了這項研究,共開發(fā)出了三個卷積神經(jīng)網(wǎng)絡(luò),它們可協(xié)同工作以生成相應(yīng)結(jié)果。其中一個卷積神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)對視覺輸入進行編碼,一個負(fù)責(zé)對音頻輸入進行編碼,第三個則負(fù)責(zé)基于視覺和音頻輸入合成輸出。

PixelPlayer訓(xùn)練數(shù)據(jù)集由714個YouTube視頻組成?!坝捎谖覀兪褂昧怂膲KNVIDIA GPU,卷積神經(jīng)網(wǎng)絡(luò)才能夠以非常快的速度處理數(shù)據(jù),”Zhao表示,“它大約用了一天的時間便學(xué)會了?!?/p>

PixelPlayer是一個自我監(jiān)督型(self-supervised)的系統(tǒng)。這意味著該系統(tǒng)不需要人類對樂器或樂器聲音進行任何標(biāo)注,也可以識別出大號和小號等樂器的外觀、樂器聲音以及發(fā)聲方式。

吹響勝利的號角

對視頻中的聲源進行定位后,PixelPlayer即可分離出其波形。目前,PixelPlayer在識別兩種或三種不同樂器時表現(xiàn)最佳,但該團隊的目標(biāo)是盡快擴大其識別范圍。在談到分離樂器聲音的過程時,Zhao說道:“我們正在努力將一個MP3文件分離為多個MP3文件。”

PixelPlayer在音樂領(lǐng)域有諸多用途。據(jù)Zhao介紹,音頻工程師可以應(yīng)用此款A(yù)I工具增強某些音量較低的樂器聲音,或去除某種背景噪音。此外,它還可以幫助音頻工程師改善現(xiàn)場錄音或重新灌錄音樂的效果。

改善助聽器功能也是研究人員為“雞尾酒會問題”開發(fā)深度學(xué)習(xí)解決方案的目的。

不僅是音樂和聽力學(xué)領(lǐng)域,其應(yīng)用范圍還可用于識別我們周圍的聲音。例如,聆聽森林中珍稀鳥類的鳴叫聲?!皺C器人也可以借助該系統(tǒng)理解周圍環(huán)境中的聲音?!盳hao補充道。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:讓音樂更悅耳:AI助力解決“雞尾酒會問題”

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    如何訓(xùn)練這些神經(jīng)網(wǎng)絡(luò)解決問題?

    神經(jīng)網(wǎng)絡(luò)建模,經(jīng)常會出現(xiàn)關(guān)于神經(jīng)網(wǎng)絡(luò)應(yīng)該有多復(fù)雜的問題,即它應(yīng)該有多少層,或者它的濾波器矩陣應(yīng)該有多大。這個問題沒有簡單的答案。與此相關(guān),討論網(wǎng)絡(luò)過擬合和欠擬合非常重要。過擬合是模
    發(fā)表于 11-24 15:35 ?737次閱讀
    如何<b class='flag-5'>訓(xùn)練</b>這些<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b><b class='flag-5'>來</b>解決問題?

    詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    在如今的網(wǎng)絡(luò)時代,錯綜復(fù)雜的大數(shù)據(jù)和網(wǎng)絡(luò)環(huán)境,讓傳統(tǒng)信息處理理論、人工智能與人工神經(jīng)網(wǎng)絡(luò)都面臨巨大的挑戰(zhàn)。近些年,深度學(xué)習(xí)逐漸走進人們的視線,通過深
    的頭像 發(fā)表于 01-11 10:51 ?2239次閱讀
    詳解<b class='flag-5'>深度</b>學(xué)習(xí)、<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>與卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的應(yīng)用

    從AlexNet到MobileNet,帶你入門深度神經(jīng)網(wǎng)絡(luò)

    通過堆疊卷積層使得模型更深更寬,同時借助GPU使得訓(xùn)練再可接受的時間范圍內(nèi)得到結(jié)果,推動了卷積神經(jīng)網(wǎng)絡(luò)甚至是深度學(xué)習(xí)的發(fā)展。下面是AlexNet的架構(gòu):AlexNet的特點有:1.借助
    發(fā)表于 05-08 15:57

    基于賽靈思FPGA的卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)設(shè)計

    FPGA 上實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò) (CNN)。CNN 是一類深度神經(jīng)網(wǎng)絡(luò),在處理大規(guī)模圖像識別任務(wù)以及與機器學(xué)習(xí)類似的其他問題方面已大獲成功。在當(dāng)前案例
    發(fā)表于 06-19 07:24

    如何移植一個CNN神經(jīng)網(wǎng)絡(luò)到FPGA

    )第二步:使用Lattice sensAI 軟件編譯已訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),定點化網(wǎng)絡(luò)參數(shù)。該軟件會根據(jù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和預(yù)設(shè)的FPGA資源進行分析并給出性能評估報告,此外用戶還可以在軟件
    發(fā)表于 11-26 07:46

    圖像預(yù)處理和改進神經(jīng)網(wǎng)絡(luò)推理的簡要介紹

    為提升識別準(zhǔn)確率,采用改進神經(jīng)網(wǎng)絡(luò)通過Mnist數(shù)據(jù)集進行訓(xùn)練。整體處理過程分為兩步:圖像預(yù)處理和改進神經(jīng)網(wǎng)絡(luò)推理。
    發(fā)表于 12-23 08:07

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于圖像分類、目標(biāo)檢測、語義分割以及自然語言處理等領(lǐng)域。首先分析了典型卷積神經(jīng)網(wǎng)絡(luò)模型為提高其性能增加網(wǎng)絡(luò)深度以及寬度的模
    發(fā)表于 08-02 10:39

    NVIDIA GPU加快深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推斷

    深度學(xué)習(xí)是推動當(dāng)前人工智能大趨勢的關(guān)鍵技術(shù)。在 MATLAB 可以實現(xiàn)深度學(xué)習(xí)的數(shù)據(jù)準(zhǔn)備、網(wǎng)絡(luò)設(shè)計、訓(xùn)練和部署全流程開發(fā)和應(yīng)用。聯(lián)合高性能
    的頭像 發(fā)表于 02-18 13:31 ?2069次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)如何識別圖像

    多層卷積層、池化層和全連接層。CNN模型通過訓(xùn)練識別并學(xué)習(xí)高度復(fù)雜的圖像模式,對于識別物體和進行圖像分類等任務(wù)有著非常優(yōu)越的表現(xiàn)。本文將會詳細介紹卷積神經(jīng)網(wǎng)絡(luò)如何識別
    的頭像 發(fā)表于 08-21 16:49 ?1965次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)的優(yōu)缺點 卷積神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)的區(qū)別

    深度神經(jīng)網(wǎng)絡(luò)是一種基于神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)算法,其主要特點是由多層神經(jīng)元構(gòu)成,可以根據(jù)數(shù)據(jù)自動調(diào)整神經(jīng)元之間的權(quán)重,從而實現(xiàn)對大規(guī)模數(shù)據(jù)進行預(yù)
    發(fā)表于 08-21 17:07 ?4197次閱讀

    如何訓(xùn)練和優(yōu)化神經(jīng)網(wǎng)絡(luò)

    神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域的重要分支,廣泛應(yīng)用于圖像識別、自然語言處理、語音識別等多個領(lǐng)域。然而,要使神經(jīng)網(wǎng)絡(luò)在實際應(yīng)用取得良好效果,必須進行有效的訓(xùn)
    的頭像 發(fā)表于 07-01 14:14 ?508次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的是什么

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,簡稱CNN)是一種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像識別、視頻分析、自然語言處理等領(lǐng)域。本文將詳細介紹卷積
    的頭像 發(fā)表于 07-03 09:15 ?464次閱讀

    bp神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)

    BP神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Network)是一種常見的前饋神經(jīng)網(wǎng)絡(luò),它使用反向傳播算法訓(xùn)練網(wǎng)絡(luò)。雖然BP
    的頭像 發(fā)表于 07-03 10:14 ?902次閱讀

    怎么對神經(jīng)網(wǎng)絡(luò)重新訓(xùn)練

    重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)是一個復(fù)雜的過程,涉及到多個步驟和考慮因素。 引言 神經(jīng)網(wǎng)絡(luò)是一種強大的機器學(xué)習(xí)模型,廣泛應(yīng)用于圖像識別、自然語言處理、語音識別等領(lǐng)域。然而,隨著時間的推移,數(shù)據(jù)分布可
    的頭像 發(fā)表于 07-11 10:25 ?491次閱讀

    殘差網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)

    殘差網(wǎng)絡(luò)(Residual Network,通常簡稱為ResNet) 是深度神經(jīng)網(wǎng)絡(luò)的一種 ,其獨特的結(jié)構(gòu)設(shè)計在解決深層網(wǎng)絡(luò)訓(xùn)練
    的頭像 發(fā)表于 07-11 18:13 ?1151次閱讀