本文提出了一種基于MAE的跨模態(tài)交互式自編碼器PiMAE,PiMAE同時(shí)具有強(qiáng)大的3D點(diǎn)云和RGB圖像特征提取能力。作者通過三個(gè)方面的獨(dú)特設(shè)計(jì)來促進(jìn)多模態(tài)學(xué)習(xí)過程中的交互效果。并對(duì)提出的PiMAE進(jìn)行了廣泛的實(shí)驗(yàn),該框架在多個(gè)下游任務(wù)上都展示出了非常出色的性能提升效果,這也側(cè)面表明MAE模式在基礎(chǔ)視覺感知任務(wù)上仍然不過時(shí),具有進(jìn)一步研究的價(jià)值。
論文鏈接: https://arxiv.org/abs/2303.08129 代碼鏈接: https://github.com/BLVLab/PiMAE
從2021年kaiming大佬首次提出MAE(Masked Autoencoders)以來,計(jì)算機(jī)視覺社區(qū)已經(jīng)出現(xiàn)了很多基于MAE的工作,例如將MAE建模拓展到視頻序列中,或者直接對(duì)MAE原始結(jié)構(gòu)進(jìn)行改進(jìn),將MAE嵌入到層次的Transformer結(jié)構(gòu)中等等。截止到現(xiàn)在,MAE原文在谷歌學(xué)術(shù)的引用量已經(jīng)達(dá)到1613。
MAE以其簡(jiǎn)單的實(shí)現(xiàn)方式、強(qiáng)大的視覺表示能力,可以在很多基礎(chǔ)視覺任務(wù)中展現(xiàn)出良好的性能。但是目前的工作大多是在單一視覺模態(tài)中進(jìn)行,那MAE在多模態(tài)數(shù)據(jù)融合方面表現(xiàn)如何呢?本文為大家介紹一項(xiàng)剛剛被視覺頂會(huì)CVPR2023接收的工作,在這項(xiàng)工作中,作者重點(diǎn)探索了點(diǎn)云數(shù)據(jù)和RGB圖像數(shù)據(jù),并且提出了一種基于MAE的自監(jiān)督擴(kuò)模態(tài)協(xié)同感知框架PiMAE。具體來說,PiMAE可以從三個(gè)方面來提升模型對(duì)3D點(diǎn)云和2D圖像數(shù)據(jù)的交互性能:
1. PiMAE設(shè)計(jì)了一個(gè)多模態(tài)映射模塊來對(duì)兩個(gè)不同模態(tài)的masked和可見的tokens進(jìn)行對(duì)齊,這一設(shè)計(jì)強(qiáng)調(diào)了mask策略在兩個(gè)不同模態(tài)中的重要性。
2. 隨后,作者為PiMAE設(shè)計(jì)了兩個(gè)MAE支路和一個(gè)共享的解碼器來實(shí)現(xiàn)masked tokens之間的跨模態(tài)交互。
3. 最后PiMAE通過一個(gè)新型的跨模態(tài)重建模塊來進(jìn)一步提升兩個(gè)模態(tài)的表征學(xué)習(xí)效果。
作者在兩個(gè)大規(guī)模多模態(tài)RGB-D場(chǎng)景理解基準(zhǔn)(SUN RGB-D和ScannetV2)上對(duì)PiMAE進(jìn)行了大量評(píng)估,PiMAE在3D目標(biāo)檢測(cè)、2D目標(biāo)檢測(cè)以及小樣本圖像分類任務(wù)上都展現(xiàn)出了優(yōu)越的性能。
一、介紹
深度學(xué)習(xí)技術(shù)目前已經(jīng)成為很多自動(dòng)化裝備的基礎(chǔ)感知手段,例如工業(yè)機(jī)器人和自動(dòng)駕駛。在這些實(shí)際場(chǎng)景中,機(jī)器可以通過攝像頭和眾多傳感器獲得大量的3D或2D點(diǎn)云數(shù)據(jù)以及RGB圖像數(shù)據(jù)。由于成對(duì)的2D像素和3D點(diǎn)云可以更全面的呈現(xiàn)同一場(chǎng)景的不同視角,將這些多模態(tài)信息高效的結(jié)合起來可以提高模型決策的準(zhǔn)確性。在本文中,作者旨在探索這樣一個(gè)問題:如何設(shè)計(jì)一個(gè)高效的多模態(tài)(3D點(diǎn)云和RGB模態(tài))無監(jiān)督交互學(xué)習(xí)框架,來實(shí)現(xiàn)更好的表征學(xué)習(xí)?為此,作者選用kaiming提出的MAE作為基礎(chǔ)架構(gòu),MAE可以通過一種簡(jiǎn)單的自監(jiān)督任務(wù)實(shí)現(xiàn)一個(gè)強(qiáng)大的ViT預(yù)訓(xùn)練框架。但是MAE在多種模態(tài)交互的情況下表現(xiàn)如何,仍然是未知的。
為了探索多模態(tài)3D點(diǎn)云和RGB圖像數(shù)據(jù)交互融合性能,本文提出了PiMAE,這是一種簡(jiǎn)單而有效的多模態(tài)MAE框架,PiMAE可以通過交互機(jī)制來學(xué)習(xí)更魯棒的3D和2D特征。PiMAE的整體框架如上圖所示,具體來說,PiMAE將成對(duì)的3D點(diǎn)云和圖像數(shù)據(jù)作為輸入,并對(duì)兩種輸入做一種互補(bǔ)的mask操作。然后對(duì)其進(jìn)行編碼得到tokens,將3D點(diǎn)云token投影到RGB圖像塊中,明確對(duì)齊兩種模態(tài)之間的Mask關(guān)系。作者認(rèn)為通過這種mask策略可以幫助點(diǎn)云token從圖像嵌入中獲得互補(bǔ)信息,反之亦然。隨后作者設(shè)計(jì)了一種對(duì)稱的自動(dòng)編碼器結(jié)構(gòu)來進(jìn)行模態(tài)特征融合,自編碼器由模態(tài)特定編碼器(Specific Encoders)的獨(dú)立分支和共享編解碼器構(gòu)成,PiMAE通過多模態(tài)重構(gòu)任務(wù)(即點(diǎn)云重構(gòu)和圖像重構(gòu))來完成兩種模態(tài)的交互和表征學(xué)習(xí)。
二、方法介紹
給定3D點(diǎn)云和RGB多模態(tài)數(shù)據(jù)后,PiMAE通過一種聯(lián)合嵌入的方式來學(xué)習(xí)跨模態(tài)特征。在具體操作中,作者首先對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行采樣并執(zhí)行聚類算法將點(diǎn)云數(shù)據(jù)嵌入到token中,然后對(duì)點(diǎn)云token進(jìn)行隨機(jī)mask。mask后的token隨后被轉(zhuǎn)換到2D平面中,同時(shí)RGB圖像塊以互補(bǔ)mask的形式也嵌入到RGB token中。隨后兩個(gè)模態(tài)的token數(shù)據(jù)通過PiMAE的聯(lián)合編解碼器進(jìn)行特征建模和融合。
PiMAE中的編碼器-解碼器架構(gòu)同時(shí)整合了模態(tài)獨(dú)立分支和模態(tài)共享分支,其中前者用來保持模型對(duì)特定模態(tài)的學(xué)習(xí),后者鼓勵(lì)模型通過跨模態(tài)的特征交互來實(shí)現(xiàn)模態(tài)之間的高效對(duì)齊。
2.1 token投影和對(duì)齊
在對(duì)點(diǎn)云和RGB圖像進(jìn)行處理時(shí),作者遵循MAE和Point-M2AE[1]中的做法,對(duì)于RGB圖像,作者將圖像先分成不重疊的圖像塊,并且為每個(gè)塊添加位置編碼嵌入和模態(tài)嵌入,隨后將他們送入到投影層。對(duì)于點(diǎn)云數(shù)據(jù),先通過最遠(yuǎn)點(diǎn)采樣(Farthest Point Sampling,F(xiàn)PS)和KNN算法提取聚類中心token,然后同樣為每個(gè)中心token添加編碼嵌入和模態(tài)嵌入,并送入到線性投影層。
2.1.1 投影
為了實(shí)現(xiàn)多模態(tài)token之間的對(duì)齊,作者通過將點(diǎn)云token投影到相機(jī)的2D圖像平面上來建立 3D點(diǎn)云和RGB圖像像素之間的嵌入聯(lián)系。對(duì)于3D點(diǎn)云,可以使用下面定義的投影函數(shù)?Proj?計(jì)算出相應(yīng)的2D坐標(biāo):
其中 K∈3×4,Rt∈4×4是相機(jī)的內(nèi)在和外置參數(shù)矩陣。(x,y,z),(u,v)是點(diǎn) P 的原始3D坐標(biāo)和投影得到的2D坐標(biāo)。
2.1.2 Mask對(duì)齊方式
由于點(diǎn)云token是由一系列聚類中心構(gòu)成,作者隨機(jī)從中選擇一部分中心點(diǎn)作為采樣區(qū)域。對(duì)于可見點(diǎn)云標(biāo)記Tp,將它們的中心點(diǎn)投影到相應(yīng)的2D相機(jī)平面并獲得其2D坐標(biāo)??它可以自然地落入形狀為?H×W(即圖像形狀)的區(qū)域內(nèi),可以通過以下方式來獲得其相對(duì)應(yīng)圖像塊的索引
其中 u 和 v表示二維坐標(biāo) p 的 x 軸值和 y 軸值,S 是圖像塊大小。
在對(duì)每個(gè)可見點(diǎn)云token進(jìn)行投影和索引后,就可以獲得它們對(duì)應(yīng)的圖像塊,如上圖所示。隨后作者使用了一種顯示的mask策略來實(shí)現(xiàn)token對(duì)齊,具體來說,一個(gè)隨機(jī)采樣的點(diǎn)云區(qū)域(上圖黑色圓圈處)被投影到圖像塊(藍(lán)色方塊)上,其他點(diǎn)云區(qū)域以類似的方式進(jìn)行采樣和投影(黃色方塊),來構(gòu)成正向Mask模式(Uniform)。相反,上圖右下區(qū)域是相應(yīng)的互補(bǔ)Mask模式(Complement)。
2.2 編碼器和解碼器
2.2.1 編碼器
PiMAE的編碼器遵循AIST++[2]的設(shè)計(jì),由兩個(gè)模塊構(gòu)成:模態(tài)特定編碼器和跨模態(tài)編碼器。前者用于更好地提取特定于當(dāng)前模態(tài)的特征,后者用于進(jìn)行跨模態(tài)特征之間的交互。在這一過程中,編碼器側(cè)重于保持不同模態(tài)特征的完整性,可以形式化表示為:
其中和?是特定于圖像和特定于點(diǎn)云的編碼器,?和??是可見圖像和點(diǎn)云token,?和?是圖像和點(diǎn)云相應(yīng)的嵌入空間。
2.2.2 解碼器
原始MAE框架中的解碼器是建立在一個(gè)具有統(tǒng)一表征能力的編碼基礎(chǔ)之上,但是本文的設(shè)定是編碼器同時(shí)捕獲圖像和點(diǎn)云數(shù)據(jù)的特征表示。由于兩種模態(tài)之間的差異,需要使用專門的解碼器將這些特征解碼為各自的模態(tài)。形式上,作者將PiMAE的共享解碼器的輸入表示為,其中包括編碼的可見特征和兩種模態(tài)的mask tokens。隨后共享解碼器會(huì)對(duì)這些特征執(zhí)行跨模態(tài)交互:。然后,在單獨(dú)模態(tài)的解碼器階段,解碼器將特征重構(gòu)回原始圖像和點(diǎn)云空間?
。其中?和?是圖像特定和點(diǎn)云特定解碼器,?和?
是可見圖像和點(diǎn)云區(qū)域,??和?是圖像和點(diǎn)云嵌入空間,重構(gòu)過程的損失函數(shù)如下:
其中?是Chamfer Distance函數(shù)(倒角距離),表示解碼器重構(gòu)函數(shù),?是點(diǎn)云嵌入表示,?是點(diǎn)云ground-truth(即點(diǎn)云輸入)。
2.3 跨模態(tài)重構(gòu)
本文使用三種不同的損失聯(lián)合訓(xùn)練PiMAE:點(diǎn)云重建損失、圖像重建損失和跨模式重建損失。在最后的重建階段,作者利用先前對(duì)齊的關(guān)系來獲得mask點(diǎn)云區(qū)域相應(yīng)的二維坐標(biāo)。然后,對(duì)重建的圖像特征進(jìn)行上采樣,這樣每個(gè)具有2D坐標(biāo)的mask點(diǎn)云都可以與重建的圖像特征相關(guān)聯(lián)。最后,mask點(diǎn)云token通過一個(gè)跨模態(tài)預(yù)測(cè)頭來恢復(fù)相應(yīng)的可見圖像特征。形式上,跨模式重建損失定義為:
其中?表示均方誤差損失函數(shù),?是解碼器的跨模態(tài)重建函數(shù),是點(diǎn)云表示,?是圖像表示。PiMAE通過聯(lián)合以上損失來進(jìn)行訓(xùn)練,通過這樣的設(shè)計(jì),PiMAE可以分別學(xué)習(xí)3D和2D特征,同時(shí)保持兩種模態(tài)之間的強(qiáng)交互性。
三、實(shí)驗(yàn)效果
本文的實(shí)驗(yàn)在兩個(gè)大規(guī)模多模態(tài)RGB-D場(chǎng)景理解基準(zhǔn)(SUN RGB-D和ScannetV2)上進(jìn)行,作者先在SUN RGB-D訓(xùn)練集對(duì)PiMAE進(jìn)行預(yù)訓(xùn)練,并在多個(gè)下游任務(wù)上對(duì)PiMAE進(jìn)行評(píng)估,包括3D目標(biāo)檢測(cè)、3D單目目標(biāo)檢測(cè)、2D目標(biāo)檢測(cè)和小樣本圖像分類。
3.1 室內(nèi)3D目標(biāo)檢測(cè)
對(duì)于室內(nèi)的3D目標(biāo)檢測(cè)任務(wù),作者將PiMAE的3D特征編碼器加入到不同的backbone網(wǎng)絡(luò)中來提高特征提取的能力,從而實(shí)現(xiàn)3D目標(biāo)檢測(cè)的能力。作者以兩個(gè)SOTA模型3DETR和GroupFree3D來作為baseline模型,如下表所示,本文的PiMAE為兩個(gè)模型都帶來了顯著的性能提升,在所有數(shù)據(jù)集上都超過了之前的基線方法。
3.2 室外單目3D目標(biāo)檢測(cè)
除了室內(nèi)環(huán)境,作者也展示了更具挑戰(zhàn)性的室外場(chǎng)景效果。與室內(nèi)預(yù)訓(xùn)練數(shù)據(jù)相比,室外場(chǎng)景的數(shù)據(jù)具有很大的數(shù)據(jù)分布差距。如下圖所示,本文方法對(duì)MonoDETR方法實(shí)現(xiàn)了實(shí)質(zhì)性的改進(jìn),這證明,PiMAE預(yù)訓(xùn)練對(duì)室內(nèi)和室外場(chǎng)景都具有很強(qiáng)的泛化能力。
3.3 2D目標(biāo)檢測(cè)
對(duì)于2D目標(biāo)檢測(cè)任務(wù),作者直接將PiMAE中的2D分支特征提取器部署在DETR上,并在ScanNetV2 2D檢測(cè)數(shù)據(jù)集上進(jìn)行評(píng)估。效果如下表所示,PiMAE預(yù)訓(xùn)練可以顯著提高DETR的檢測(cè)性能。
3.4 小樣本圖像分類
對(duì)于few-shot圖像分類任務(wù),作者選取了三個(gè)不同的基準(zhǔn)來探索PiMAE圖像編碼器的特征提取能力。為了驗(yàn)證PiMAE的有效性,作者沒有改動(dòng)原有模型的分類器,僅在特征編碼器中添加一個(gè)線性層,并基于[CLS] token作為輸入來預(yù)測(cè)類別。下表展示了PiMAE在小樣本圖像分類任務(wù)上的結(jié)果。與從頭開始訓(xùn)練的模型相比,經(jīng)過PiMAE預(yù)訓(xùn)練的模型具有顯著的性能提升。
此外,為了驗(yàn)證PiMAE跨模態(tài)交互設(shè)計(jì)的有效性,作者在下圖中可視化了共享編碼器中的注意力圖??梢钥吹?,PiMAE更專注于具有更高注意力值的更多前景目標(biāo),顯示出較強(qiáng)的跨模態(tài)理解能力。
四、總結(jié)
本文提出了一種基于MAE的跨模態(tài)交互式自編碼器PiMAE,PiMAE同時(shí)具有強(qiáng)大的3D點(diǎn)云和RGB圖像特征提取能力。作者通過三個(gè)方面的獨(dú)特設(shè)計(jì)來促進(jìn)多模態(tài)學(xué)習(xí)過程中的交互效果。首先,通過一種顯示的點(diǎn)云圖像對(duì)齊mask策略可以實(shí)現(xiàn)更好的特征融合。接下來,設(shè)計(jì)了一個(gè)共享解碼器來同時(shí)對(duì)兩種模態(tài)中的token進(jìn)行處理。最后,跨模態(tài)重建機(jī)制可以高效的對(duì)整體框架進(jìn)行優(yōu)化。作者對(duì)提出的PiMAE進(jìn)行了廣泛的實(shí)驗(yàn),PiMAE在多個(gè)下游任務(wù)上都展示出了非常出色的性能提升效果,這也側(cè)面表明MAE模式在基礎(chǔ)視覺感知任務(wù)上仍然不過時(shí),具有進(jìn)一步研究的價(jià)值。
審核編輯 :李倩
-
解碼器
+關(guān)注
關(guān)注
9文章
1143瀏覽量
40742 -
編碼器
+關(guān)注
關(guān)注
45文章
3643瀏覽量
134525 -
目標(biāo)檢測(cè)
+關(guān)注
關(guān)注
0文章
209瀏覽量
15611
原文標(biāo)題:CVPR 2023 | MAE再發(fā)力,跨模態(tài)交互式自編碼器PiMAE席卷3D目標(biāo)檢測(cè)領(lǐng)域
文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論