a级黄毛片在线观看,狠狠色丁香久久婷婷综合,正在播放国产乱子伦最新视频

【編者按】Kanda機器學(xué)習(xí)工程師Daniel Rothmann回顧了現(xiàn)有的機器學(xué)習(xí)音頻處理方法，提出了未來可能的發(fā)展方向。

這兩年來AI，特別是深度學(xué)習(xí)發(fā)展迅猛，我們在圖像和視頻處理方面看到了大量AI技術(shù)的應(yīng)用。盡管AI進(jìn)入音頻世界的步伐要晚一點，我們同樣看到了令人印象深刻的技術(shù)進(jìn)展。

在這篇文章中，我將總結(jié)一些進(jìn)展，勾勒下AI在音頻處理方面的潛力，同時描述下這條路線上可能碰到的問題和挑戰(zhàn)。

趨向更智能的音頻

我對音頻處理方面的AI應(yīng)用的興趣源于2016年底DeepMind的WaveNet的發(fā)表——WaveNet是一個生成音頻錄音的深度學(xué)習(xí)模型1。這一基于自適應(yīng)網(wǎng)絡(luò)架構(gòu)的擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò)能夠成功生成很有說服力的文本到語音轉(zhuǎn)換，并能基于經(jīng)典鋼琴錄音訓(xùn)練出有趣的類似音樂的錄音。

我們在商業(yè)世界中看到了更多機器學(xué)習(xí)應(yīng)用——例如LANDR，一個自動母帶后期處理服務(wù)，該服務(wù)依靠AI設(shè)定數(shù)字音頻處理和增益細(xì)化的參數(shù)。

專業(yè)音頻軟件巨頭iZotope在2017年發(fā)布了Neutron 2，這個混音工具的特色是利用AI檢測樂器并向用戶建議裝置預(yù)設(shè)的“音軌助手”。iZotope的音頻修復(fù)套件RX 6中還有一個分離談話的工具，同樣基于AI技術(shù)。

AI在數(shù)字信號處理方面的潛力

AI在音頻處理上的應(yīng)用仍處于早期。深度學(xué)習(xí)方法讓我們可以從一個全新的角度應(yīng)對信號處理問題，但整個音頻行業(yè)對此的認(rèn)知遠(yuǎn)遠(yuǎn)不夠。目前而言，音頻行業(yè)專注于公式化的處理方法：深入理解問題后，手工設(shè)計求解函數(shù)。然而，理解聲音是一項非常復(fù)雜的任務(wù)，我們?nèi)祟愔庇X上認(rèn)為相當(dāng)容易的問題實際上很難公式化地描述。

以音源分離為例：在一個兩個人同時說話的場景下，你的大腦不需要費多少功夫就可以想象任何一個人在單獨說話。但是我們?nèi)绾蚊枋龇蛛x這兩個語言的公式呢？好，它取決于：

有描述人類嗓音的統(tǒng)一方式嗎？如果答案是肯定的，性別、年齡、精力、個性等參數(shù)是如何影響這一描述的呢？聽話人的物理距離和房間的音響效果如何影響這一理解？錄音中可能出現(xiàn)的非人類發(fā)出的噪聲如何處理？通過什么參數(shù)可以將一個人的嗓音和另一個人區(qū)分開來？

如你所見，設(shè)計一個全面兼顧這一問題的公式需要關(guān)注大量參數(shù)。AI在這里提供了一種更實用的方法——通過設(shè)定學(xué)習(xí)的恰當(dāng)條件，我們通過統(tǒng)計學(xué)方法自動估計這一復(fù)雜函數(shù)。事實上，助聽器生產(chǎn)商Oticon研發(fā)中心Eriksholm的研究人員提出了一種基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)在實時應(yīng)用中更好地分離音源的方法2。

由于基于深度神經(jīng)網(wǎng)絡(luò)處理音頻的方法仍在不斷改進(jìn)之中，我們只能開始設(shè)想下可能解決的一些困難問題——下面是我在深度學(xué)習(xí)用于實時音頻處理方面的一些設(shè)想：

選擇性噪聲消除，例如移除汽車的聲音。

Hi-fi音頻重建，例如基于小型、低質(zhì)的麥克風(fēng)采集的音頻。

模擬音頻仿真，模仿非線性模擬音頻組件的復(fù)雜交互。

語音處理，例如更改錄音的說話人、方言、語言。

改善空間模擬，用于回響、雙耳統(tǒng)合處理。

表示和架構(gòu)上的挑戰(zhàn)

WaveNet是最早在原始樣本層次成功生成音頻的嘗試之一。這里有一大問題，CD音質(zhì)的音頻通常以每秒44100的采樣率存儲，因此WaveNet需要幾小時才能生成幾秒的音頻。這在實時應(yīng)用中就不行了。

另一方面，許多基于神經(jīng)網(wǎng)絡(luò)處理音頻的現(xiàn)有方案利用光譜表示和卷積網(wǎng)絡(luò)。這些方案基本上將音頻頻譜可視化為2D圖像，然后使用卷積網(wǎng)絡(luò)掃描、處理圖像3。通常，這些方法的結(jié)果并不像視覺領(lǐng)域的結(jié)果那么有吸引力，比如CycleGAN可以對電影進(jìn)行令人印象深刻的風(fēng)格遷移4。

電影和音頻剪輯有一些相同之處，它們都描繪了時間之上的運動?？紤]到CycleGAN這樣在圖像處理網(wǎng)絡(luò)方面的創(chuàng)新，有人可能會假定音頻上同樣可以進(jìn)行這樣的風(fēng)格遷移。

但電影和音頻剪輯不是一回事——如果我們凍結(jié)電影的一幀，從這一幀中仍能得到相當(dāng)多的關(guān)于行動的信息。但如果我們凍結(jié)音頻的“一幀”，其中只有極少的信息。這意味著，相比電影，音頻在基礎(chǔ)上更依賴時間。在光譜中，我們也從來不會假定一個像素屬于單個對象：音頻永遠(yuǎn)“細(xì)如絲線”，光譜在同一幀中顯示所有混雜在一起的聲響3。

卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計借鑒了人類的視覺系統(tǒng)，最初基于視皮層的信息傳播過程5。我相信，這里有一個值得考慮的問題。我們基本是將音頻轉(zhuǎn)換成圖像，然后在圖像上進(jìn)行視覺處理，再轉(zhuǎn)換回音頻。所以，我們是用機器視覺來處理機器聽覺。但是，從直覺上說，這兩種感官的工作方式是不一樣的?？纯聪旅娴墓庾V，憑借你聰慧的人類大腦，你能從中得到多少關(guān)于音頻實際內(nèi)容的有意義的信息？如果你可以聽到它，你將很快直觀地體會到正在發(fā)生什么。也許這正是阻礙面向音頻的AI輔助技術(shù)發(fā)展的問題所在。

5秒的光譜（這是藍(lán)調(diào)口琴）

因此我提議，神經(jīng)網(wǎng)絡(luò)要想在音頻處理上取得更好的結(jié)果，我們應(yīng)該集中精力找到專門針對音頻的更好表示和神經(jīng)網(wǎng)絡(luò)架構(gòu)。比如自相關(guān)圖這樣包括時間、頻率、周期性的三維表示6。人類可以基于直覺比較聲音的周期性，找出模式的相似性，以區(qū)分音源。音高和節(jié)奏也是時間因素的結(jié)果。因此像自相關(guān)圖這樣更關(guān)注時間的表示，可能有用。

表示聲音的自相關(guān)圖（圖片來源：shef.ac.uk）

此外，我們可以開始設(shè)想在架構(gòu)上建模聽覺系統(tǒng)的神經(jīng)通路。當(dāng)聲音刺激耳膜并傳至耳蝸時，根據(jù)頻率的不同，它會轉(zhuǎn)為不同幅度。接著聲音傳至中央聽覺系統(tǒng)進(jìn)行時間模式處理。中央聽覺系統(tǒng)中負(fù)責(zé)從音頻中收集意義的分析模式中，哪一種可以通過人工神經(jīng)網(wǎng)絡(luò)建模？也許是周期性6，也許是聲音事件的統(tǒng)計學(xué)分組7，也許是分析的擴(kuò)張時間幀1。

聽覺系統(tǒng)示意圖（圖片來源：Universit?t Zu Lübeck）

結(jié)語

AI領(lǐng)域的發(fā)展為智能音頻處理提供了很大潛力。但要讓神經(jīng)網(wǎng)絡(luò)更好地理解聲音，我們也許需要離內(nèi)在地視覺上的方法遠(yuǎn)一點，轉(zhuǎn)而考慮基于聽覺系統(tǒng)的新技術(shù)。

這篇文章中，相比提供的答案，我提出了更多的問題，希望能引起你對此的思考。

這是機器聽覺系列文章的第一篇，后續(xù)文章將于近期翻譯，敬請期待。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
30998

瀏覽量
269305
機器學(xué)習(xí)

機器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8422

瀏覽量
132724

原文標(biāo)題：機器聽覺：一、AI在音頻處理上的潛力

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

risc-v多核芯片在AI方面的應(yīng)用

多核芯片在AI方面的應(yīng)用具有廣闊的前景和巨大的潛力。隨著技術(shù)的不斷進(jìn)步和應(yīng)用的深入，我們期待看到更多基于RISC-V多核芯片的AI解決方案在

發(fā)表于 04-28 09:20

5509a主要是想學(xué)習(xí)在音頻方面的應(yīng)用，不知道看些什么書

在學(xué)習(xí)5509a，不知道怎么學(xué)習(xí)，有前輩指點下么，主要是想學(xué)習(xí)在音頻方面的應(yīng)用，不知道看些什么書，找些什么資料

發(fā)表于 03-13 17:09

請問用DSP做音頻處理這方面的項目，用什么樣的開發(fā)板比較好

請問用DSP做音頻處理這方面的項目，用什么樣的開發(fā)板比較好，有專用處理音頻的嗎急用，請大神解答

發(fā)表于 06-05 21:11

圖形處理在多媒體技術(shù)應(yīng)用方面的經(jīng)驗和成果

圖形處理在多媒體技術(shù)應(yīng)用方面的經(jīng)驗和成果

發(fā)表于 02-01 06:07

音頻處理SoC在500 μW以下運行AI

DSP Group作為其最新超低功耗音頻處理SoC SmartVoice DBM10的一部分，首次推出了用于AI加速的新硬件IP，即nNetLite神經(jīng)處理單元（NPU）。

發(fā)表于 03-03 10:49

NEC MCU在馬達(dá)方面的應(yīng)用

NEC MCU在馬達(dá)方面的應(yīng)用 Agenda1、NEC MCU在馬達(dá)應(yīng)用方面的特點 1.1 NEC 8位MCU在馬達(dá)應(yīng)用

發(fā)表于 03-17 16:48 ?53次下載

基于ST公司的STM32微控制器系列在音頻方面的應(yīng)用源代碼

基于ST公司的STM32微控制器系列在音頻方面的應(yīng)用源代碼。

發(fā)表于 05-20 16:29 ?7次下載

阿里在AI方面的布局和戰(zhàn)略投資出手闊綽

在人工智能如火如荼的當(dāng)下，對于國內(nèi)科技巨頭來說，布局AI就是在布局未來，因此阿里在AI方面的布局

發(fā)表于 12-05 09:03 ?4457次閱讀

探析下一代半導(dǎo)體材料在改造照明技術(shù)方面的潛力

美國喬治亞理工大學(xué)（Georgia Institute of Technology）的一個國際研究團(tuán)隊證明了下一代半導(dǎo)體材料在改造照明技術(shù)方面的潛力。

發(fā)表于 02-13 14:17 ?2984次閱讀

Python語言在AI、大數(shù)據(jù)方面的重要性

Python語言在AI、大數(shù)據(jù)方面的重要性

發(fā)表于 09-02 16:20 ?25次下載

全球金融機構(gòu)在使用AI方面的主要趨勢

2022 年調(diào)查確定了全球金融機構(gòu)在使用 AI 方面的主要趨勢。

發(fā)表于 04-25 11:39 ?1574次閱讀

半導(dǎo)體廠商在音頻電子方面的三個新發(fā)展

在本文中，我們將重點介紹主要半導(dǎo)體廠商在音頻電子方面的三個新發(fā)展。高通公司宣布了兩個用于無線收聽和錄音的音頻平臺，而意法半導(dǎo)體和羅姆半導(dǎo)體分

發(fā)表于 05-06 16:45 ?1548次閱讀

半導(dǎo)體廠商<b class='flag-5'>在</b><b class='flag-5'>音頻</b>電子<b class='flag-5'>方面的</b>三個新發(fā)展

AI Codec在應(yīng)用落地方面的案例

)，展現(xiàn)了強大的技術(shù)潛力。但受限于計算復(fù)雜度、非標(biāo)等原因，AI Codec在應(yīng)用落地方面的案例卻屈指可數(shù)。LiveVideoStackCon2022北京站邀請了來自雙深科技的田康為大家

發(fā)表于 06-19 09:50 ?891次閱讀

<b class='flag-5'>AI</b> Codec<b class='flag-5'>在</b>應(yīng)用落地<b class='flag-5'>方面的</b>案例

微處理器在人工智能方面的應(yīng)用

微處理器在人工智能（AI）方面的應(yīng)用日益廣泛且深入，成為了推動AI技術(shù)發(fā)展的重要力量。本文將從微處理

發(fā)表于 08-22 14:21 ?1006次閱讀

AI在環(huán)境可持續(xù)發(fā)展方面的作用

近日，《聯(lián)合國氣候變化框架公約》締約方會議第二十九次會議（COP29）在阿塞拜疆巴庫落下帷幕，與會者們齊聚于此，共同應(yīng)對氣候變化。AI 在環(huán)境可持續(xù)發(fā)展方面的作用成為了本屆大會關(guān)注的焦

發(fā)表于 11-27 11:24 ?288次閱讀

搜索歷史

AI在音頻處理方面的潛力

評論