聽到“唔哩——唔哩——”的警笛聲,你可以迅速判斷出聲音來自路過的一輛急救車。
能不能讓AI根據(jù)音頻信號得到發(fā)聲物完整的、精細(xì)化的掩碼圖呢?
來自合肥工業(yè)大學(xué)、商湯、澳國立、北航、英偉達(dá)、港大和上海人工智能實驗室的研究者提出了一項新的視聽分割任務(wù)(Audio-Visual Segmentation, AVS)。
視聽分割,就是要分割出發(fā)聲物,而后生成發(fā)聲物的精細(xì)化分割圖。
相應(yīng)的,研究人員提出了第一個具有像素級標(biāo)注的視聽數(shù)據(jù)集AVSBench。
新任務(wù)、新的數(shù)據(jù)集,搞算法的又有新坑可以卷了。
據(jù)最新放榜結(jié)果,該論文已被ECCV 2022接受。
精準(zhǔn)鎖定發(fā)聲物
聽覺和視覺是人類感知世界中最重要的兩個傳感器。生活里,聲音信號和視覺信號往往是互補(bǔ)的。
視聽表征學(xué)習(xí)(audio-visual learning)已經(jīng)催生了很多有趣的任務(wù),比如視聽通信(AVC)、視聽事件定位(AVEL)、視頻解析(AVVP)、聲源定位(SSL)等。
這里面既有判定音像是否描述同一事件/物體的分類任務(wù),也有以熱力圖可視化大致定位發(fā)聲物的任務(wù)。
但無論哪一種,離精細(xì)化的視聽場景理解都差點意思。
△ AVS 任務(wù)與 SSL 任務(wù)的比較
視聽分割“迎難而上”,提出要準(zhǔn)確分割出視頻幀中正在發(fā)聲的物體全貌——
即以音頻為指導(dǎo)信號,確定分割哪個物體,并得到其完整的像素級掩碼圖。
AVSBench 數(shù)據(jù)集
要怎么研究這個新任務(wù)呢?
鑒于當(dāng)前還沒有視聽分割的開源數(shù)據(jù)集,研究人員提出AVSBench 數(shù)據(jù)集,借助它研究了新任務(wù)的兩種設(shè)置:
1、單聲源(Single-source)下的視聽分割 2、多聲源(Multi-sources)下的視聽分割
數(shù)據(jù)集中的每個視頻時長5秒。
單聲源子集包含23類,共4932個視頻,包含嬰兒、貓狗、吉他、賽車、除草機(jī)等與日常生活息息相關(guān)的發(fā)聲物。
△AVSBench單源子集的數(shù)據(jù)分布
多聲源子集則包含了424個視頻。
結(jié)合難易情況,單聲源子集在半監(jiān)督條件下進(jìn)行,多聲源子集則以全監(jiān)督條件進(jìn)行。
研究人員對AVSBench里的每個視頻等間隔采樣5幀,然后人工對發(fā)聲體進(jìn)行像素級標(biāo)注。
對于單聲源子集,僅標(biāo)注采樣的第一張視頻幀;對于多聲源子集,5幀圖像都被標(biāo)注——這就是所謂的半監(jiān)督和全監(jiān)督。
△對單聲源子集和多聲源子集進(jìn)行不同人工標(biāo)注
這種像素級的標(biāo)注,避免了將很多非發(fā)聲物或背景給包含進(jìn)來,從而增加了模型驗證的準(zhǔn)確性。
一個簡單的baseline方法
有了數(shù)據(jù)集,研究人員還拋磚引玉,在文中給了個簡單的baseline。
吸收傳統(tǒng)語義分割模型的成功經(jīng)驗,研究人員提出了一個端到端的視聽分割模型。
△視聽分割框架圖
這個模型遵循編碼器-解碼器的網(wǎng)絡(luò)架構(gòu),輸入視頻幀,最終直接輸出分割掩碼。
另外,還有兩個網(wǎng)絡(luò)優(yōu)化目標(biāo)。
一是計算預(yù)測圖和真實標(biāo)簽的損失。
而針對多聲源情況,研究人員提出了掩碼視聽匹配損失函數(shù),用來約束發(fā)聲物和音頻特征在特征空間中保持相似分布。
部分實驗結(jié)果
光說不練假把式,研究人員進(jìn)行了廣泛實驗。
首先,將視聽分割與相關(guān)任務(wù)的6種方法進(jìn)行了比較,研究人員選取了聲源定位(SSL)、視頻物體分割(VOS)、顯著性物體檢測(SOD)任務(wù)上的各兩個SOTA方法。
實驗結(jié)果表明,視聽分割在多個指標(biāo)下取得了最佳結(jié)果。
△和來自相關(guān)任務(wù)方法進(jìn)行視聽分割的對比結(jié)果
其次,研究人員進(jìn)行了一系列消融實驗,驗證出,利用TPAVI模塊,單聲源和多聲源設(shè)置下采用兩種backbone的視聽分割模型都能得到更大的提升。
△引入音頻的TPAVI模塊,可以更好地處理物體的形狀細(xì)節(jié)(左圖),并且有助于分割出正確的發(fā)聲物(右圖)
對于新任務(wù)的視聽匹配損失函數(shù),實驗還驗證了其有效性。
△視聽匹配損失函數(shù)的有效性
One More Thing
文中還提到,AVSBench數(shù)據(jù)集不僅可以用于所提出的視聽分割模型的訓(xùn)練、測試,其也可以用于驗證聲源定位模型。
研究人員在項目主頁上表示,正在準(zhǔn)備比AVSBench大10倍的AVSBench-v2。
-
編碼器
+關(guān)注
關(guān)注
45文章
3643瀏覽量
134524 -
AI
+關(guān)注
關(guān)注
87文章
30896瀏覽量
269108 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24703
原文標(biāo)題:聽聲辨物,這是AI視覺該干的???|ECCV 2022
文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論