【導(dǎo)讀】只需一個(gè)簡(jiǎn)單操作擴(kuò)展MAE,即可實(shí)現(xiàn)自監(jiān)督學(xué)習(xí)新sota!
在計(jì)算機(jī)視覺(jué)領(lǐng)域,想要建立圖像和場(chǎng)景(scene)之間之間的對(duì)應(yīng)關(guān)系是一項(xiàng)比較困難的任務(wù),尤其是在存在遮擋、視角改變或是物體外觀發(fā)生變化的情況下。
最近,斯坦福大學(xué)李飛飛團(tuán)隊(duì)對(duì)MAE進(jìn)行擴(kuò)展,提出了孿生掩碼自編碼器SiamMAE(Siamese Masked Autoencoders)以學(xué)習(xí)視頻中的視覺(jué)對(duì)應(yīng)關(guān)系。
論文鏈接:https://siam-mae-video.github.io/resources/paper.pdf
先隨機(jī)采樣兩個(gè)視頻幀,并進(jìn)行非對(duì)稱掩碼操作;然后SiamMAE編碼器網(wǎng)絡(luò)對(duì)兩個(gè)幀進(jìn)行獨(dú)立處理,最后使用交叉注意層組成的解碼器來(lái)預(yù)測(cè)未來(lái)幀(future frame)中丟失的圖像塊。
通過(guò)對(duì)未來(lái)幀中的大部分(95%)圖像塊進(jìn)行掩碼,同時(shí)保持過(guò)去幀(past frame)圖像不變,SiamMAE促使網(wǎng)絡(luò)專注于物體運(yùn)動(dòng),并學(xué)習(xí)以物體為中心的表征。
盡管整個(gè)網(wǎng)絡(luò)的設(shè)計(jì)概念比較簡(jiǎn)單,但通過(guò)SiamMAE學(xué)習(xí)到的特征在視頻物體分割、姿勢(shì)關(guān)鍵點(diǎn)傳播和語(yǔ)義部分傳播任務(wù)上都優(yōu)于最先進(jìn)的自監(jiān)督方法。
SiamMAE在不依賴于數(shù)據(jù)增強(qiáng)、基于手工跟蹤的前置任務(wù)或其他技術(shù)來(lái)防止表征崩潰的情況下,實(shí)現(xiàn)了非常有競(jìng)爭(zhēng)力的性能。
孿生掩碼自編碼器
研究人員的目標(biāo)是開發(fā)一種自監(jiān)督的方法來(lái)學(xué)習(xí)對(duì)應(yīng)關(guān)系,主要是將掩碼自編碼器(MAE)模型擴(kuò)展到視頻數(shù)據(jù)中。
Patchify
給定具有L幀的視頻剪輯,首先隨機(jī)采樣兩個(gè)視頻幀,兩幀之間的距離通過(guò)從預(yù)定的potential frame gaps范圍中選擇一個(gè)隨機(jī)值來(lái)確定。
與原始ViT模型類似,通過(guò)將每個(gè)幀轉(zhuǎn)換為一系列不重疊的N×N個(gè)patch來(lái)拼接視頻幀。
最后,把位置嵌入加到線性投影上,并附加一個(gè)[CLS]標(biāo)記,需要注意的是沒(méi)有使用時(shí)序位置嵌入。
Masking
像圖像和視頻這樣的自然信號(hào)是高度冗余的,分別表現(xiàn)為空間和時(shí)空上的冗余。
為了創(chuàng)造一個(gè)具有挑戰(zhàn)性的預(yù)測(cè)性自監(jiān)督學(xué)習(xí)任務(wù),MAEs隨機(jī)掩碼了75%的圖像patch,視頻數(shù)據(jù)的掩碼率提升到90%,并且對(duì)每幀都使用相同的掩碼率。
這種設(shè)計(jì)可以使網(wǎng)絡(luò)無(wú)法利用和學(xué)習(xí)到時(shí)間上的對(duì)應(yīng)關(guān)系,避免在對(duì)應(yīng)關(guān)系學(xué)習(xí)基準(zhǔn)上達(dá)到次優(yōu)性能。
研究人員認(rèn)為,不對(duì)稱的掩碼可以創(chuàng)造一個(gè)更有挑戰(zhàn)性的自監(jiān)督學(xué)習(xí)任務(wù),并且可以鼓勵(lì)網(wǎng)絡(luò)學(xué)習(xí)時(shí)間上的相關(guān)性。
所以對(duì)于采樣的兩個(gè)視頻幀,對(duì)第一幀選擇不掩碼,對(duì)第二幀選擇掩碼95%,這樣就可以將整個(gè)過(guò)去幀(entire past frame)作為輸入,網(wǎng)絡(luò)只需要將其擴(kuò)散到未來(lái)中的適當(dāng)位置即可,可以促進(jìn)網(wǎng)絡(luò)對(duì)物體運(yùn)動(dòng)進(jìn)行建模并關(guān)注物體的邊界。
為了進(jìn)一步增加任務(wù)的難度,兩個(gè)視頻幀之間具有更大的時(shí)間間隔,盡管可能會(huì)導(dǎo)致對(duì)未來(lái)的預(yù)測(cè)變得模糊,并可能產(chǎn)生多種合理的結(jié)果,但為第二幀提供少量的patch作為輸入,可以讓網(wǎng)絡(luò)的自監(jiān)督學(xué)習(xí)變得更困難。
編碼器
研究人員探索了兩種不同的編碼器配置來(lái)處理輸入幀。
聯(lián)合編碼器(joint encoder)是圖像MAEs在一對(duì)視頻幀上的擴(kuò)展,把兩幀未掩碼的圖像patch串聯(lián)起來(lái),然后輸入到標(biāo)準(zhǔn)的ViT編碼器中進(jìn)行處理。
孿生編碼器(siamese encoder)是用于比較實(shí)體的權(quán)重共享神經(jīng)網(wǎng)絡(luò),是對(duì)比表征學(xué)習(xí)方法的一個(gè)重要組件,用于對(duì)應(yīng)學(xué)習(xí)(corresponding learning)時(shí)通常需要一些信息瓶頸來(lái)防止網(wǎng)絡(luò)學(xué)習(xí)的解決方案,如使用顏色通道dropout來(lái)迫使網(wǎng)絡(luò)避免依賴顏色來(lái)匹配對(duì)應(yīng)關(guān)系。
在這篇論文中,研究人員使用孿生編碼器來(lái)獨(dú)立處理兩幅圖像,使用非對(duì)稱掩碼作為信息瓶頸。
解碼器
編碼器的輸出通過(guò)線性層進(jìn)行投影,并加入帶有位置嵌入的[MASK] token,以生成對(duì)應(yīng)于輸入幀的所有token
研究人員探索了三種不同的解碼器配置:
聯(lián)合解碼器(joint decoder)在兩幀的token串聯(lián)上使用原版Transformer模塊,其主要缺點(diǎn)是對(duì)GPU內(nèi)存的需求大幅增加,特別是在使用較小的patch尺寸時(shí)。
交叉自解碼器(cross-self decoder)與原版Transformer模型的編碼-解碼器設(shè)計(jì)類似,每個(gè)解碼器塊由一個(gè)交叉注意力層和一個(gè)自注意力層組成,來(lái)自第二幀的token通過(guò)交叉注意力層與第一幀的token進(jìn)行注意力操作,然后通過(guò)自注意力層進(jìn)行相互融合。
可以注意到,交叉注意力層在功能上類似于自監(jiān)督對(duì)應(yīng)學(xué)習(xí)方法中經(jīng)常使用的affinity矩陣。
交叉解碼器(cross decoder)由交叉注意力層的解碼器塊組成,其中來(lái)自第二幀的token與來(lái)自第一幀的token進(jìn)行注意力操作。
最后,解碼器的輸出序列被用來(lái)預(yù)測(cè)掩碼圖像塊中的歸一化像素值,在解碼器的預(yù)測(cè)和真實(shí)值之間使用L2損失。
實(shí)驗(yàn)結(jié)果
視頻物體分割
在多物體分割基準(zhǔn)數(shù)據(jù)集DAVIS 2017上,使用480p分辨率的圖像對(duì)模型進(jìn)行評(píng)估。
實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)SiamMAE明顯優(yōu)于VideoMAE(從39.3%提升到62.0%),研究人員將其歸因于VideoMAE中使用了tube掩碼方案,使得模型無(wú)法學(xué)習(xí)時(shí)間上的對(duì)應(yīng)關(guān)系。
與DINO類似,研究人員也發(fā)現(xiàn)降低patch的尺寸會(huì)帶來(lái)明顯的性能提升。
并且文中使用的ViT-S/8(+9.4%)模型優(yōu)于之前所有的對(duì)比學(xué)習(xí)和自監(jiān)督的對(duì)應(yīng)學(xué)習(xí)方法。
還可以注意到盡管較大的MAE-ST模型(ViT-L/16,304M參數(shù))在隨機(jī)掩碼的情況下比VideoMAE表現(xiàn)更好,但其性能仍然落后于SiamMAE相當(dāng)多。
而且在視頻上訓(xùn)練的MAE與圖像MAE的表現(xiàn)相似,視頻與圖像的不同之處在于,圖像是(近似)各向同性的,時(shí)間維度是特殊的,并不是所有的時(shí)空方向都是同等可能的。
因此,對(duì)稱地處理空間和時(shí)間信息可能是次優(yōu)的。
視頻部分分割(Video Part Segmentation)
在視頻實(shí)例解析(Video Instance Parsing, VIP)基準(zhǔn)上對(duì)SiamMAE進(jìn)行評(píng)估,該基準(zhǔn)包括為20個(gè)不同的人體部位傳播語(yǔ)義掩碼。
與評(píng)估的其他數(shù)據(jù)集相比,VIP特別具有挑戰(zhàn)性,因?yàn)榘ǜL(zhǎng)的視頻(最長(zhǎng)120秒)。
與先前工作類似,使用560×560的圖像和單一背景幀進(jìn)行評(píng)估后,可以發(fā)現(xiàn)ViT-S/8模型性能大大超越了DINO (從39.5提升到45.9)。
SiamMAE從更小的patch尺寸中,比DINO受益更多,實(shí)現(xiàn)了+8.6的mIoU評(píng)分,比DINO的+3.3 mIoU有所提高。
SiamMAE也優(yōu)于之前所有的對(duì)比學(xué)習(xí)和自監(jiān)督的對(duì)應(yīng)關(guān)系學(xué)習(xí)方法。
姿勢(shì)追蹤(pose tracking)
在關(guān)鍵點(diǎn)傳播的任務(wù)上對(duì)SiamMAE進(jìn)行了評(píng)估,需要傳播15個(gè)關(guān)鍵點(diǎn),并且要求空間上的精確對(duì)應(yīng)關(guān)系,使用320×320的圖像和一個(gè)單一的背景幀,SiamMAE的性能優(yōu)于所有其他模型,并且比DINO更受益于較小的patch尺寸(+14.9到+10.9 PCK@0.1)
?
參考資料: https://siam-mae-video.github.io/resources/paper.pdf
-
解碼器
+關(guān)注
關(guān)注
9文章
1143瀏覽量
40742 -
編碼器
+關(guān)注
關(guān)注
45文章
3643瀏覽量
134531 -
圖像
+關(guān)注
關(guān)注
2文章
1084瀏覽量
40470
原文標(biāo)題:李飛飛團(tuán)隊(duì)新作SiamMAE:孿生掩碼自編碼器,刷榜視覺(jué)自監(jiān)督方法!
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論