科學家們通過記錄海洋、叢林、森林以及其他自然環(huán)境中的動物聲音來研究本地的動物種群已有30多年的歷史了。他們利用這些結果來評估人為噪音對自然環(huán)境的影響,監(jiān)控瀕危動物種群和調查動物之間的交流。由于缺少高級算法和處理能力,科學家們面對被動的聲學監(jiān)控系統(tǒng)產(chǎn)生的數(shù)百萬兆聲音數(shù)據(jù),通常1%都處理不了。
挑戰(zhàn)
康奈爾鳥類學實驗室研究生物聲學的科學家們必須應對來天氣、其他動物和附近機械及車輛的噪音。同一物種動物聲音存在的個體差異增加了復雜性。噪音和變化性這兩個因素增加了漏報和誤報的數(shù)量,使檢測算法的準確性下降。
另一個挑戰(zhàn)是處理BRP正在收集的數(shù)億兆的數(shù)據(jù)。一個典型的項目包括處理在多個信道上記錄的數(shù)年的原始聲學數(shù)據(jù)(高達10TB)。每個信道均可采集數(shù)億的事件——在頻譜圖上發(fā)生突變的聲音數(shù)據(jù)。將在小型高質量樣本上測試的算法應用于噪音更大的較大數(shù)據(jù)集時往往不太準確。
最后,BRP分析工具必須服務于廣泛的研究計劃、環(huán)境和移動需求。Clark博士說:“回答我們的初始研究問題經(jīng)常會通向將要探索的全新領域,我們需要能夠處理需求的突然變化。"
解決方案
BRP數(shù)據(jù)科學家們使用MATLAB開發(fā)高性能計算 (HPC) 軟件以自動處理聲學數(shù)據(jù)。
檢測分類項目首先是收集希望檢測到的動物音頻剪輯、動物所處環(huán)境中的背景噪音剪輯以及歸檔的聲學數(shù)據(jù)的MAT文件。使用MATLAB時,他們開發(fā)新算法或優(yōu)化現(xiàn)有算法,在與剪輯目錄相似的歸檔數(shù)據(jù)中檢測音頻順序。
這些算法使用Image Processing Toolbox和Signal Processing Toolbox支持的模式匹配、邊緣檢測、連接的區(qū)域分析、卷積和其他技術以及Fuzzy Logic Toolbox和Neural Network Toolbox支持的機器學習技術。為了評估算法的準確性,科學家使用Statistics Toolbox來計算受試者工作特征 (ROC) 和其他性能曲線。
使用Parallel Computing Toolbox在小型數(shù)據(jù)集上調試和優(yōu)化算法后,科學家們使用MATLAB Distributed Computing Server在64個worker的集群上對所有存檔數(shù)據(jù)進行了運算。
BRP團隊開發(fā)了一個MATLAB界面,使科學家可以指定算法、數(shù)據(jù)集和處理器的數(shù)量。除了檢測和分類算法外,BRP使用MATLAB進行噪音分析和聲學建模,在這個過程中他們采集海洋或陸地環(huán)境的時間和頻率分布影響并進行仿真。
結果
將開發(fā)時間縮短了數(shù)年。Dugan博士說:“對預測成本的一項研究顯示,如果我們必須依靠自己來完成這些任務,那么開發(fā)我們所需的這種HPC平臺將花費三年的時間和100萬美元的成本,并且還需要許多的外部幫助。而借助Parallel Computing Toolbox和MATLAB Distributed Computing Server后,我們不到三個月就完成了平臺的開發(fā)。”
分析時間從幾周縮減為幾小時。Dugan博士說:“使用我們的一個算法處理90的數(shù)據(jù)需要19周的時間。而借助Parallel Computing Toolbox和MATLAB Distributed Computing Server后,我們在集群上只用了8個小時便完成了同一個分析?!?/p>
在幾天內完成以前未能處理的數(shù)據(jù)的分析。Dugan博士說:“一個數(shù)據(jù)集采集了100,000小時的聲音。它是如此巨大以至于以前我們連1%都處理不了,根據(jù)預估,需要一年或更長的時間來處理剩余的數(shù)據(jù)。而借助我們的MATLAB HPC平臺后,在兩天內,我們對該數(shù)據(jù)進行了六次處理,且每次均使用了不同的檢測算法?!?/p>
-
數(shù)據(jù)采集
+關注
關注
39文章
6200瀏覽量
113831 -
高性能
+關注
關注
0文章
157瀏覽量
20417 -
機器學習
+關注
關注
66文章
8428瀏覽量
132834
發(fā)布評論請先 登錄
相關推薦
評論