如何從混雜的背景噪音中過濾出特定的聲音,這一“經(jīng)典雞尾酒會問題”有望在AI的幫助下得以解決。
因為我們的大腦可以專注于想聽到的內(nèi)容,所以人耳可以準(zhǔn)確地從嘈雜聲中分辨出特定的聲音。然而,基于機器的“聲源分離”技術(shù)多年來卻一直讓工程師們束手無策。麻省理工學(xué)院的研究人員正在利用MV(音樂短片)訓(xùn)練神經(jīng)網(wǎng)絡(luò),以便更好地定位聲音來源。
該團隊的深度學(xué)習(xí)系統(tǒng)可以“直接通過一些未經(jīng)標(biāo)記的YouTube視頻進行學(xué)習(xí),分辨出每種物體對應(yīng)的聲音,”麻省理工學(xué)院研究人員Hang Zhao說道。他也曾是NVIDIA研究部門的實習(xí)生。
Zhao認(rèn)為,該技術(shù)極具突破性,在語音、聽力學(xué)、音樂和機器人學(xué)領(lǐng)域均有廣泛的應(yīng)用。
通過“刷視頻”來學(xué)習(xí)
麻省理工學(xué)院開發(fā)出了一種新方法,即通過YouTube視頻中的圖像和聲音來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。他們的目標(biāo)是讓神經(jīng)網(wǎng)絡(luò)能夠精確定位視頻中圖像的位置(精確到像素級)。
該團隊將其系統(tǒng)稱為PixelPlayer,并通過YouTube上的MV對PixelPlayer進行了60個小時的訓(xùn)練。到目前為止,該系統(tǒng)已經(jīng)可以識別20多種樂器。
該團隊在麻省理工學(xué)院的計算機科學(xué)和人工智能實驗室 (Computer Science and Artificial Intelligence Lab) 開展了這項研究,共開發(fā)出了三個卷積神經(jīng)網(wǎng)絡(luò),它們可協(xié)同工作以生成相應(yīng)結(jié)果。其中一個卷積神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)對視覺輸入進行編碼,一個負(fù)責(zé)對音頻輸入進行編碼,第三個則負(fù)責(zé)基于視覺和音頻輸入合成輸出。
PixelPlayer訓(xùn)練數(shù)據(jù)集由714個YouTube視頻組成?!坝捎谖覀兪褂昧怂膲KNVIDIA GPU,卷積神經(jīng)網(wǎng)絡(luò)才能夠以非常快的速度處理數(shù)據(jù),”Zhao表示,“它大約用了一天的時間便學(xué)會了?!?/p>
PixelPlayer是一個自我監(jiān)督型(self-supervised)的系統(tǒng)。這意味著該系統(tǒng)不需要人類對樂器或樂器聲音進行任何標(biāo)注,也可以識別出大號和小號等樂器的外觀、樂器聲音以及發(fā)聲方式。
吹響勝利的號角
對視頻中的聲源進行定位后,PixelPlayer即可分離出其波形。目前,PixelPlayer在識別兩種或三種不同樂器時表現(xiàn)最佳,但該團隊的目標(biāo)是盡快擴大其識別范圍。在談到分離樂器聲音的過程時,Zhao說道:“我們正在努力將一個MP3文件分離為多個MP3文件。”
PixelPlayer在音樂領(lǐng)域有諸多用途。據(jù)Zhao介紹,音頻工程師可以應(yīng)用此款A(yù)I工具增強某些音量較低的樂器聲音,或去除某種背景噪音。此外,它還可以幫助音頻工程師改善現(xiàn)場錄音或重新灌錄音樂的效果。
改善助聽器功能也是研究人員為“雞尾酒會問題”開發(fā)深度學(xué)習(xí)解決方案的目的。
不僅是音樂和聽力學(xué)領(lǐng)域,其應(yīng)用范圍還可用于識別我們周圍的聲音。例如,聆聽森林中珍稀鳥類的鳴叫聲?!皺C器人也可以借助該系統(tǒng)理解周圍環(huán)境中的聲音?!盳hao補充道。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4777瀏覽量
100974 -
人工智能
+關(guān)注
關(guān)注
1793文章
47535瀏覽量
239327 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121355
原文標(biāo)題:讓音樂更悅耳:AI助力解決“雞尾酒會問題”
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論