0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于光譜圖利用CNN進(jìn)行音頻處理效果不佳的原因

zhKF_jqr_AI ? 來源:未知 ? 2018-11-29 09:01 ? 次閱讀

編者按:Kanda機(jī)器學(xué)習(xí)工程師Daniel Rothmann分析了基于光譜圖利用CNN進(jìn)行音頻處理效果不佳的原因。

圖片來源:Jack Hamilton

近幾年來,基于神經(jīng)網(wǎng)絡(luò)生成、處理圖像方面有很多偉大的成果。這部分歸功于深度CNN在捕捉、轉(zhuǎn)換圖像的高層信息上的強(qiáng)大表現(xiàn)。一個(gè)知名的例子是L. Gatys等提出的使用CNN轉(zhuǎn)換圖像風(fēng)格的方法,該方法能夠以不同的風(fēng)格渲染圖像的語義內(nèi)容。

Y. Li等很好地解釋了神經(jīng)風(fēng)格遷移的過程:“該方法使用CNN不同層的神經(jīng)激活組成的格拉姆矩陣表示圖像的藝術(shù)風(fēng)格。接著使用迭代優(yōu)化方法,通過神經(jīng)激活匹配內(nèi)容圖像,格拉姆矩陣匹配風(fēng)格圖像,從白噪聲生成新圖像?!?/p>

簡(jiǎn)單地說,根據(jù)源內(nèi)容圖像和風(fēng)格圖像在不同抽象水平上的特征組合生成圖像,得到了這些結(jié)果。例如,保持內(nèi)容圖像的高層結(jié)構(gòu)和輪廓,納入風(fēng)格圖像的顏色和低層紋理。

圖片來源:L. Gatys等

視覺處理領(lǐng)域風(fēng)格遷移的表現(xiàn)相當(dāng)令人印象深刻,所以人們很自然地想到利用CNN優(yōu)化“更智能”的音頻處理算法,例如,使用CNN分析和處理音頻的光譜。將光譜作為圖像處理,并基于CNN進(jìn)行神經(jīng)風(fēng)格遷移,這是可以做到的,但到目前為止,我們得到的結(jié)果遠(yuǎn)遠(yuǎn)不能和視覺圖像相比。

為了克服這一挑戰(zhàn),在神經(jīng)音頻處理上得到更好的結(jié)果,我們也許需要考慮下為什么基于CNN的風(fēng)格遷移在光譜上的表現(xiàn)不佳。這些技術(shù)基本上是通過應(yīng)用機(jī)器視覺來進(jìn)行機(jī)器聽覺任務(wù)。我相信這帶來了一個(gè)本質(zhì)問題,可能阻礙了AI輔助技術(shù)在音頻處理上的進(jìn)展。盡管這個(gè)問題無疑可以從許多角度考慮,探索下圖像和光譜的區(qū)別,還有視覺和聽覺的一些不同,也許是值得的。

聲音是“透明的”

通過比較視覺圖像和光譜,我們可以發(fā)現(xiàn)視覺物體和聲音事件積聚的方式不同。用視覺來類比,聲音總是“透明的”而大多數(shù)視覺物體是不透明的。

遇到圖像中某一顏色的像素時(shí),大多數(shù)情況下我們都可以假定它屬于單個(gè)物體,而不同的聲音事件在光譜圖上并不分層。這意味著,我們不能假定光譜圖中觀察到的某一具體頻率屬于單個(gè)聲音,因?yàn)樵擃l率的幅度可能是任意數(shù)目的聲音累加所得,甚至是相位相抵這樣的聲波間的復(fù)雜交互。所以,在光譜表示中,區(qū)分同時(shí)發(fā)生的聲音很難。

上圖展示了三個(gè)光譜分析的困難場(chǎng)景。左:相似的音調(diào)導(dǎo)致頻率上不均勻的相位相抵。中:難以分離音高相似的同時(shí)發(fā)生的嗓音。右:噪雜、復(fù)雜的聲音場(chǎng)景,使得區(qū)分聲音事件特別困難。

光譜的軸攜帶不同的含義

用于圖像的CNN使用在x和y維度共享權(quán)重的二維過濾器4。如前所述,這一切建立在圖像的特征攜帶的含義與其位置無關(guān)這一假定上。例如,不管圖像中的人臉是橫向的,還是縱向的,它始終是一張人臉。

而光譜圖的兩個(gè)維度表示根本不同的單位,一個(gè)是頻率的強(qiáng)度,另一個(gè)是時(shí)間。橫向移動(dòng)聲音事件意味著它在時(shí)間上的位置發(fā)生了偏移,可以主張,不管它是何時(shí)發(fā)生的,一個(gè)聲音事件都意味著同一件事。然而,縱向移動(dòng)聲音也許會(huì)影響其含義:例如,向上移動(dòng)男性嗓音的頻率可能使含義從男子變?yōu)樾『⒒蚋绮剂?。聲音事件的頻率調(diào)整也可能改變聲音的空間范圍4。因此,二維CNN提供的空間不變性在這種形式的數(shù)據(jù)上也許表現(xiàn)沒有那么好。

聲音的光譜性質(zhì)不是局部的

在圖像上,相似的相鄰像素經(jīng)常被假定為屬于同一視覺物體,但在聲音上,頻率大多數(shù)情況下在光譜上的分布是非局部的4。周期性的聲音通常由基礎(chǔ)頻率和若干泛音組成。這些泛音的混合決定了音質(zhì)。

在女性人聲的例子中,某一時(shí)刻的基礎(chǔ)頻率也許是200Hz,而第一泛音是400Hz,接下來是600Hz,以此類推。這些頻率并不存在局部分組,但以共同關(guān)系一起移動(dòng)。這使基于二維卷積在光譜中找出局部特征這一任務(wù)變得更困難了,因?yàn)楸M管這些泛音根據(jù)同一因素移動(dòng),但在空間上經(jīng)常呈不均勻分布。

女性人聲頻率的非局部分布

聲音內(nèi)在地是序列的

評(píng)估視覺環(huán)境時(shí),我們可以多次“掃描”周邊以定位場(chǎng)景中的每個(gè)視覺物體。由于大多數(shù)物體不是移動(dòng)的,它們反射光線的方式是可預(yù)測(cè)的,我們可以建立它們?cè)谖锢韴?chǎng)景下的擺放位置的心智地圖。從感知的角度來說,我們假定視覺物體在觀測(cè)到的位置上持續(xù)存在,即使當(dāng)我們轉(zhuǎn)頭查看別處時(shí)也是如此。

在聲音上這不成立。聲音采用壓力波的物理形式,從聽者的角度來說,這樣的波在某一時(shí)刻的狀態(tài)僅僅是當(dāng)前的。過了這一時(shí)刻,聲波便悄然離去。之所以將這一現(xiàn)象稱為聲音事件而不是物體,正是因?yàn)槿绱?。從物理上說,這意味著聽者僅在每一時(shí)刻體驗(yàn)到聲音。圖像包含了大量的靜態(tài)并行信息,而聲音是高度序列化的。

更合適的比較是音頻和視頻。這兩個(gè)媒體都可以被認(rèn)為描述時(shí)間上的運(yùn)動(dòng),其中時(shí)間上的依賴性對(duì)內(nèi)容含義的體驗(yàn)是必不可少的。由于視頻是由一組圖像(幀)構(gòu)成的,它包含更多并行信息。

演示這一點(diǎn)的其中一個(gè)方法是在這兩個(gè)媒體中“凍結(jié)”某一時(shí)刻。查看視頻的一幀(常常是約1/25秒的曝光時(shí)間),我們經(jīng)常仍舊能夠收集關(guān)于上下文、行動(dòng)、場(chǎng)景的大量信息:我們可以識(shí)別單個(gè)物體,有時(shí)還能估計(jì)行動(dòng)和移動(dòng)。但當(dāng)“凍結(jié)”音頻的某一時(shí)刻(例如約1/25秒的信息聚合),基于光譜分析的估計(jì)就不可能那么全面。我們可以搜集一些關(guān)于信號(hào)的總音調(diào)平衡和特性的信息,但程度遠(yuǎn)不及視頻。

例如,不可能從時(shí)間上下文之外識(shí)別單獨(dú)的聲音事件,以查看相同時(shí)間模式上的光譜發(fā)展。唯一可以確定的就是某一特定時(shí)刻聽到的聲音的音調(diào)平衡。我們之前提到過,聲音的物理形式是波,這就解釋了為什么:聲音不以靜態(tài)物體的形式存在,無法并行觀測(cè),它們以氣壓序列的形式到達(dá),通過時(shí)間才能建立這些壓力的意義。

這些原因暗示了聲音作為傳達(dá)含義的媒體在本質(zhì)上是序列的,比視頻更依賴時(shí)間。這是將聲音的視覺光譜表示傳入圖像處理網(wǎng)絡(luò),而沒有考慮到時(shí)間的方法可能效果不佳的另一個(gè)原因。

建模人類體驗(yàn)的一個(gè)例子

通過建模人類系統(tǒng),AI技術(shù)取得了突破性的進(jìn)展。盡管人工神經(jīng)網(wǎng)絡(luò)是數(shù)學(xué)模型,僅僅從實(shí)際的人類神經(jīng)元功能上得到了一些最初的啟示,它們?cè)诮鉀Q復(fù)雜、不明確的真實(shí)世界問題上的應(yīng)用有目共睹。在這些神經(jīng)網(wǎng)絡(luò)中建模大腦架構(gòu)上的深度為學(xué)習(xí)數(shù)據(jù)的更多有意義表示開啟了廣泛的可能性。在圖像辨認(rèn)和處理方面,CNN從視覺系統(tǒng)的復(fù)雜的空間不變性上得到的啟發(fā)已經(jīng)在技術(shù)上產(chǎn)生了很大的進(jìn)展。

正如J. B. Allen在“How Do Humans Process and Recognize Speech?”(人類如何處理和辨識(shí)語音)一文中所主張的,只要人類的感知能力超過機(jī)器,我們就能持續(xù)從理解人類系統(tǒng)的原則中獲得收益5。一般來說,人類在感知任務(wù)上非常靈巧,而人類理解和AI現(xiàn)狀在機(jī)器聽覺領(lǐng)域的差別尤為明顯??紤]到從人類系統(tǒng)獲得的啟發(fā)在視覺處理領(lǐng)域的收獲(以及視覺模型在聲音上表現(xiàn)沒那么好這一點(diǎn)),我覺得我們?cè)诨谏窠?jīng)網(wǎng)絡(luò)的機(jī)器聽覺上也能從借鑒人類系統(tǒng)中持續(xù)獲得收益。

這是機(jī)器聽覺系列的第二篇,如果你錯(cuò)過了第一篇,可以點(diǎn)擊下面這個(gè)鏈接:

背景:AI在音頻處理上的潛力

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4772

    瀏覽量

    100845
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1085

    瀏覽量

    40491
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    352

    瀏覽量

    22238

原文標(biāo)題:機(jī)器聽覺:二、基于光譜圖和CNN處理音頻有何問題?

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于CNN-LSTM網(wǎng)絡(luò)的電力負(fù)荷預(yù)測(cè)

    為了及時(shí)掌握電力負(fù)荷的變動(dòng)信息,就需要對(duì)電力負(fù)荷進(jìn)行準(zhǔn)確預(yù)測(cè)。鑒于此,探究出一種CNN和LSTM的組合模型來預(yù)測(cè)一日到一周的電力短期負(fù)荷波動(dòng)情況。CNN模型負(fù)責(zé)從輸入信息中提取特征,LSTM模型
    的頭像 發(fā)表于 11-09 14:13 ?3252次閱讀
    基于<b class='flag-5'>CNN</b>-LSTM網(wǎng)絡(luò)的電力負(fù)荷預(yù)測(cè)

    基于數(shù)字CNN與生物視覺的仿生眼設(shè)計(jì)

    個(gè)8×8的數(shù)字CNN陣列,并對(duì)其圖像處理功能進(jìn)行了仿真,實(shí)驗(yàn)結(jié)果證明,該數(shù)字CNN陣列可以對(duì)二值圖像進(jìn)行特征提取等操作,圖6為水平檢測(cè)以及圖
    發(fā)表于 09-19 09:35

    音樂編輯與效果處理入門

    音樂編輯軟件有多種選擇,對(duì)于大多來說需要的功能一般包括:錄音,對(duì)錄音內(nèi)容進(jìn)行剪輯,加入一些特殊效果等等。WAVECN是一個(gè)國產(chǎn)的免費(fèi)非線性音頻編輯軟件,全名是中錄音編輯處理器WAVEC
    發(fā)表于 03-12 02:16

    請(qǐng)問有知道怎么用labview對(duì)光譜儀采集的光譜進(jìn)行處理的么

    現(xiàn)在我利用光譜儀采集到激光光譜,想利用labview對(duì)其進(jìn)行背景去噪等,但是首先不會(huì)將光譜導(dǎo)入到labview中,采集的格式為csv,asc
    發(fā)表于 07-23 10:46

    基于Keras利用cv2建立訓(xùn)練存儲(chǔ)CNN模型(2+1)調(diào)用攝像頭實(shí)現(xiàn)實(shí)時(shí)人臉識(shí)別

    CV之CNN:基于Keras利用cv2建立訓(xùn)練存儲(chǔ)CNN模型(2+1)并調(diào)用攝像頭進(jìn)行實(shí)時(shí)人臉識(shí)別
    發(fā)表于 12-26 11:09

    如何利用PyTorch API構(gòu)建CNN?

      很多人對(duì)于卷積神經(jīng)網(wǎng)絡(luò)(CNN)并不了解,卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),它包括卷積計(jì)算并具有很深的結(jié)構(gòu),卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的代表性算法之一。那么如何利用PyTorch API構(gòu)建CNN
    發(fā)表于 07-16 18:13

    SPC5Studio 6.0 CDT效果不佳是何原因

    請(qǐng)重新在線更新SPC5Studio-5.8.1 reposity。SPC5Studio 6.0 CDT 效果不佳
    發(fā)表于 12-06 07:06

    深度探析7大類深度CNN創(chuàng)新架構(gòu)

    深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種特殊類型的神經(jīng)網(wǎng)絡(luò),在各種競(jìng)賽基準(zhǔn)上表現(xiàn)出了當(dāng)前最優(yōu)結(jié)果。本綜述將最近的 CNN 架構(gòu)創(chuàng)新分為七個(gè)不同的類別,分別基于空間利用、深度、多路徑、寬度、特征圖利用
    的頭像 發(fā)表于 01-27 11:01 ?4256次閱讀
    深度探析7大類深度<b class='flag-5'>CNN</b>創(chuàng)新架構(gòu)

    音頻處理器的作用_音頻處理器和效果器的區(qū)別

    本文主要闡述了音頻處理器的作用及音頻處理器和效果器的區(qū)別。
    發(fā)表于 04-09 10:41 ?3.1w次閱讀

    如何使用C672x有效地創(chuàng)建基于延遲的音頻效果

    基于延遲的音頻效果。 如何利用數(shù)據(jù)移動(dòng)加速器 (dMAX) 為基于延遲的應(yīng)用程序移動(dòng)數(shù)據(jù)。 如何在基于延遲的音頻效果
    的頭像 發(fā)表于 06-17 10:22 ?1630次閱讀
    如何使用C672x有效地創(chuàng)建基于延遲的<b class='flag-5'>音頻</b><b class='flag-5'>效果</b>

    融合雙層多頭自注意力與CNN的回歸模型

    內(nèi)部的詞依賴關(guān)系,從而捕獲序列的內(nèi)部結(jié)構(gòu)。重利用淺層特征并與多頭自注意力特征進(jìn)行融合,結(jié)合深度學(xué)習(xí)中的CNN進(jìn)一步優(yōu)化文本情感極性分析效果。在基準(zhǔn)數(shù)據(jù)集 Semeval-2017Tas
    發(fā)表于 03-25 15:16 ?6次下載
    融合雙層多頭自注意力與<b class='flag-5'>CNN</b>的回歸模型

    為什么傳統(tǒng)CNN在紋理分類數(shù)據(jù)集上的效果不好?

    作者:TraptiKalra來源:AI公園,編譯:ronghuaiyang導(dǎo)讀本文分析了常見的紋理數(shù)據(jù)集以及傳統(tǒng)CNN在紋理數(shù)據(jù)集分類上效果不佳原因。在機(jī)器視覺任務(wù)中,將紋理分析與深
    的頭像 發(fā)表于 09-23 14:26 ?831次閱讀
    為什么傳統(tǒng)<b class='flag-5'>CNN</b>在紋理分類數(shù)據(jù)集上的<b class='flag-5'>效果</b>不好?

    音頻處理器和功放的區(qū)別 好功放和普通功放有什么區(qū)別

    音頻處理器主要用于對(duì)音頻信號(hào)進(jìn)行處理、調(diào)節(jié)和效果處理
    的頭像 發(fā)表于 07-14 14:24 ?5435次閱讀

    如何利用CNN實(shí)現(xiàn)圖像識(shí)別

    卷積神經(jīng)網(wǎng)絡(luò)(CNN)是深度學(xué)習(xí)領(lǐng)域中一種特別適用于圖像識(shí)別任務(wù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。它通過模擬人類視覺系統(tǒng)的處理方式,利用卷積、池化等操作,自動(dòng)提取圖像中的特征,進(jìn)而實(shí)現(xiàn)高效的圖像識(shí)別。本文將從C
    的頭像 發(fā)表于 07-03 16:16 ?1420次閱讀

    如何利用地物光譜進(jìn)行土地利用分類?

    在土地利用分類領(lǐng)域,地物光譜技術(shù)正發(fā)揮著日益重要的作用。下面就為大家簡(jiǎn)要介紹如何利用地物光譜進(jìn)行土地利用
    的頭像 發(fā)表于 12-13 14:44 ?102次閱讀
    如何<b class='flag-5'>利用</b>地物<b class='flag-5'>光譜</b><b class='flag-5'>進(jìn)行</b>土地<b class='flag-5'>利用</b>分類?