0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

李飛飛團(tuán)隊(duì)新作SiamMAE:孿生掩碼自編碼器,刷榜視覺(jué)自監(jiān)督方法!

CVer ? 來(lái)源:新智元 ? 2023-06-12 14:18 ? 次閱讀

【導(dǎo)讀】只需一個(gè)簡(jiǎn)單操作擴(kuò)展MAE,即可實(shí)現(xiàn)自監(jiān)督學(xué)習(xí)新sota!

計(jì)算機(jī)視覺(jué)領(lǐng)域,想要建立圖像和場(chǎng)景(scene)之間之間的對(duì)應(yīng)關(guān)系是一項(xiàng)比較困難的任務(wù),尤其是在存在遮擋、視角改變或是物體外觀發(fā)生變化的情況下。

最近,斯坦福大學(xué)李飛飛團(tuán)隊(duì)對(duì)MAE進(jìn)行擴(kuò)展,提出了孿生掩碼自編碼器SiamMAE(Siamese Masked Autoencoders)以學(xué)習(xí)視頻中的視覺(jué)對(duì)應(yīng)關(guān)系。

666d8786-08df-11ee-962d-dac502259ad0.png

論文鏈接:https://siam-mae-video.github.io/resources/paper.pdf

先隨機(jī)采樣兩個(gè)視頻幀,并進(jìn)行非對(duì)稱掩碼操作;然后SiamMAE編碼器網(wǎng)絡(luò)對(duì)兩個(gè)幀進(jìn)行獨(dú)立處理,最后使用交叉注意層組成的解碼器來(lái)預(yù)測(cè)未來(lái)幀(future frame)中丟失的圖像塊。

通過(guò)對(duì)未來(lái)幀中的大部分(95%)圖像塊進(jìn)行掩碼,同時(shí)保持過(guò)去幀(past frame)圖像不變,SiamMAE促使網(wǎng)絡(luò)專注于物體運(yùn)動(dòng),并學(xué)習(xí)以物體為中心的表征。

6682c56a-08df-11ee-962d-dac502259ad0.gif

盡管整個(gè)網(wǎng)絡(luò)的設(shè)計(jì)概念比較簡(jiǎn)單,但通過(guò)SiamMAE學(xué)習(xí)到的特征在視頻物體分割、姿勢(shì)關(guān)鍵點(diǎn)傳播和語(yǔ)義部分傳播任務(wù)上都優(yōu)于最先進(jìn)的自監(jiān)督方法。

SiamMAE在不依賴于數(shù)據(jù)增強(qiáng)、基于手工跟蹤的前置任務(wù)或其他技術(shù)來(lái)防止表征崩潰的情況下,實(shí)現(xiàn)了非常有競(jìng)爭(zhēng)力的性能。

孿生掩碼自編碼器

研究人員的目標(biāo)是開發(fā)一種自監(jiān)督的方法來(lái)學(xué)習(xí)對(duì)應(yīng)關(guān)系,主要是將掩碼自編碼器(MAE)模型擴(kuò)展到視頻數(shù)據(jù)中。

66cad7ec-08df-11ee-962d-dac502259ad0.png

Patchify

給定具有L幀的視頻剪輯,首先隨機(jī)采樣兩個(gè)視頻幀,兩幀之間的距離通過(guò)從預(yù)定的potential frame gaps范圍中選擇一個(gè)隨機(jī)值來(lái)確定。

與原始ViT模型類似,通過(guò)將每個(gè)幀轉(zhuǎn)換為一系列不重疊的N×N個(gè)patch來(lái)拼接視頻幀。

最后,把位置嵌入加到線性投影上,并附加一個(gè)[CLS]標(biāo)記,需要注意的是沒(méi)有使用時(shí)序位置嵌入。

Masking

像圖像和視頻這樣的自然信號(hào)是高度冗余的,分別表現(xiàn)為空間和時(shí)空上的冗余。

為了創(chuàng)造一個(gè)具有挑戰(zhàn)性的預(yù)測(cè)性自監(jiān)督學(xué)習(xí)任務(wù),MAEs隨機(jī)掩碼了75%的圖像patch,視頻數(shù)據(jù)的掩碼率提升到90%,并且對(duì)每幀都使用相同的掩碼率。

這種設(shè)計(jì)可以使網(wǎng)絡(luò)無(wú)法利用和學(xué)習(xí)到時(shí)間上的對(duì)應(yīng)關(guān)系,避免在對(duì)應(yīng)關(guān)系學(xué)習(xí)基準(zhǔn)上達(dá)到次優(yōu)性能。

研究人員認(rèn)為,不對(duì)稱的掩碼可以創(chuàng)造一個(gè)更有挑戰(zhàn)性的自監(jiān)督學(xué)習(xí)任務(wù),并且可以鼓勵(lì)網(wǎng)絡(luò)學(xué)習(xí)時(shí)間上的相關(guān)性。

所以對(duì)于采樣的兩個(gè)視頻幀,對(duì)第一幀選擇不掩碼,對(duì)第二幀選擇掩碼95%,這樣就可以將整個(gè)過(guò)去幀(entire past frame)作為輸入,網(wǎng)絡(luò)只需要將其擴(kuò)散到未來(lái)中的適當(dāng)位置即可,可以促進(jìn)網(wǎng)絡(luò)對(duì)物體運(yùn)動(dòng)進(jìn)行建模并關(guān)注物體的邊界。

66e9b522-08df-11ee-962d-dac502259ad0.png

為了進(jìn)一步增加任務(wù)的難度,兩個(gè)視頻幀之間具有更大的時(shí)間間隔,盡管可能會(huì)導(dǎo)致對(duì)未來(lái)的預(yù)測(cè)變得模糊,并可能產(chǎn)生多種合理的結(jié)果,但為第二幀提供少量的patch作為輸入,可以讓網(wǎng)絡(luò)的自監(jiān)督學(xué)習(xí)變得更困難。

編碼器

研究人員探索了兩種不同的編碼器配置來(lái)處理輸入幀。

聯(lián)合編碼器(joint encoder)是圖像MAEs在一對(duì)視頻幀上的擴(kuò)展,把兩幀未掩碼的圖像patch串聯(lián)起來(lái),然后輸入到標(biāo)準(zhǔn)的ViT編碼器中進(jìn)行處理。

孿生編碼器(siamese encoder)是用于比較實(shí)體的權(quán)重共享神經(jīng)網(wǎng)絡(luò),是對(duì)比表征學(xué)習(xí)方法的一個(gè)重要組件,用于對(duì)應(yīng)學(xué)習(xí)(corresponding learning)時(shí)通常需要一些信息瓶頸來(lái)防止網(wǎng)絡(luò)學(xué)習(xí)的解決方案,如使用顏色通道dropout來(lái)迫使網(wǎng)絡(luò)避免依賴顏色來(lái)匹配對(duì)應(yīng)關(guān)系。

在這篇論文中,研究人員使用孿生編碼器來(lái)獨(dú)立處理兩幅圖像,使用非對(duì)稱掩碼作為信息瓶頸。

解碼器

編碼器的輸出通過(guò)線性層進(jìn)行投影,并加入帶有位置嵌入的[MASK] token,以生成對(duì)應(yīng)于輸入幀的所有token

研究人員探索了三種不同的解碼器配置:

聯(lián)合解碼器(joint decoder)在兩幀的token串聯(lián)上使用原版Transformer模塊,其主要缺點(diǎn)是對(duì)GPU內(nèi)存的需求大幅增加,特別是在使用較小的patch尺寸時(shí)。

交叉自解碼器(cross-self decoder)與原版Transformer模型的編碼-解碼器設(shè)計(jì)類似,每個(gè)解碼器塊由一個(gè)交叉注意力層和一個(gè)自注意力層組成,來(lái)自第二幀的token通過(guò)交叉注意力層與第一幀的token進(jìn)行注意力操作,然后通過(guò)自注意力層進(jìn)行相互融合。

可以注意到,交叉注意力層在功能上類似于自監(jiān)督對(duì)應(yīng)學(xué)習(xí)方法中經(jīng)常使用的affinity矩陣。

交叉解碼器(cross decoder)由交叉注意力層的解碼器塊組成,其中來(lái)自第二幀的token與來(lái)自第一幀的token進(jìn)行注意力操作。

最后,解碼器的輸出序列被用來(lái)預(yù)測(cè)掩碼圖像塊中的歸一化像素值,在解碼器的預(yù)測(cè)和真實(shí)值之間使用L2損失。

實(shí)驗(yàn)結(jié)果

66fbc73a-08df-11ee-962d-dac502259ad0.png

視頻物體分割

在多物體分割基準(zhǔn)數(shù)據(jù)集DAVIS 2017上,使用480p分辨率的圖像對(duì)模型進(jìn)行評(píng)估。

實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)SiamMAE明顯優(yōu)于VideoMAE(從39.3%提升到62.0%),研究人員將其歸因于VideoMAE中使用了tube掩碼方案,使得模型無(wú)法學(xué)習(xí)時(shí)間上的對(duì)應(yīng)關(guān)系。

6719c7ee-08df-11ee-962d-dac502259ad0.png

與DINO類似,研究人員也發(fā)現(xiàn)降低patch的尺寸會(huì)帶來(lái)明顯的性能提升。

并且文中使用的ViT-S/8(+9.4%)模型優(yōu)于之前所有的對(duì)比學(xué)習(xí)和自監(jiān)督的對(duì)應(yīng)學(xué)習(xí)方法。

67342d82-08df-11ee-962d-dac502259ad0.gif

還可以注意到盡管較大的MAE-ST模型(ViT-L/16,304M參數(shù))在隨機(jī)掩碼的情況下比VideoMAE表現(xiàn)更好,但其性能仍然落后于SiamMAE相當(dāng)多。

而且在視頻上訓(xùn)練的MAE與圖像MAE的表現(xiàn)相似,視頻與圖像的不同之處在于,圖像是(近似)各向同性的,時(shí)間維度是特殊的,并不是所有的時(shí)空方向都是同等可能的。

因此,對(duì)稱地處理空間和時(shí)間信息可能是次優(yōu)的。

視頻部分分割(Video Part Segmentation)

在視頻實(shí)例解析(Video Instance Parsing, VIP)基準(zhǔn)上對(duì)SiamMAE進(jìn)行評(píng)估,該基準(zhǔn)包括為20個(gè)不同的人體部位傳播語(yǔ)義掩碼。

與評(píng)估的其他數(shù)據(jù)集相比,VIP特別具有挑戰(zhàn)性,因?yàn)榘ǜL(zhǎng)的視頻(最長(zhǎng)120秒)。

與先前工作類似,使用560×560的圖像和單一背景幀進(jìn)行評(píng)估后,可以發(fā)現(xiàn)ViT-S/8模型性能大大超越了DINO (從39.5提升到45.9)。

6761b14e-08df-11ee-962d-dac502259ad0.gif

SiamMAE從更小的patch尺寸中,比DINO受益更多,實(shí)現(xiàn)了+8.6的mIoU評(píng)分,比DINO的+3.3 mIoU有所提高。

SiamMAE也優(yōu)于之前所有的對(duì)比學(xué)習(xí)和自監(jiān)督的對(duì)應(yīng)關(guān)系學(xué)習(xí)方法。

姿勢(shì)追蹤(pose tracking)

在關(guān)鍵點(diǎn)傳播的任務(wù)上對(duì)SiamMAE進(jìn)行了評(píng)估,需要傳播15個(gè)關(guān)鍵點(diǎn),并且要求空間上的精確對(duì)應(yīng)關(guān)系,使用320×320的圖像和一個(gè)單一的背景幀,SiamMAE的性能優(yōu)于所有其他模型,并且比DINO更受益于較小的patch尺寸(+14.9到+10.9 PCK@0.1)

67822ea6-08df-11ee-962d-dac502259ad0.gif

?

參考資料: https://siam-mae-video.github.io/resources/paper.pdf

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1143

    瀏覽量

    40742
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3643

    瀏覽量

    134531
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1084

    瀏覽量

    40470

原文標(biāo)題:李飛飛團(tuán)隊(duì)新作SiamMAE:孿生掩碼自編碼器,刷榜視覺(jué)自監(jiān)督方法!

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于變分自編碼器的異常小區(qū)檢測(cè)

    出來(lái)?! ”疚奶岢隽艘环N基于變分自編碼器的異常小區(qū)檢測(cè)方法,其基本原理是利用異常小區(qū)的KPI數(shù)據(jù)在通過(guò)變分自編碼器編碼與解碼過(guò)程中所產(chǎn)生的較大波動(dòng)來(lái)實(shí)現(xiàn)異常檢測(cè)。實(shí)驗(yàn)結(jié)果表明,該
    發(fā)表于 12-03 15:06

    是什么讓變分自編碼器成為如此成功的多媒體生成工具呢?

    標(biāo)準(zhǔn)自編碼器能學(xué)習(xí)生成緊湊的數(shù)據(jù)表達(dá)并重建輸入數(shù)據(jù),然而除了像去噪自編碼器等為數(shù)不多的應(yīng)用外,它的應(yīng)用卻極其有限。其根本原因在于自編碼器將輸入轉(zhuǎn)換為隱含空間中的表達(dá)并不是連續(xù)的,使得其中的插值和擾動(dòng)難以完成。
    的頭像 發(fā)表于 04-19 16:48 ?1.3w次閱讀
    是什么讓變分<b class='flag-5'>自編碼器</b>成為如此成功的多媒體生成工具呢?

    自編碼器是什么?有什么用

    自動(dòng)編碼器是一種無(wú)監(jiān)督的神經(jīng)網(wǎng)絡(luò)模型,它可以學(xué)習(xí)到輸入數(shù)據(jù)的隱含特征,這稱為編碼(coding),同時(shí)用學(xué)習(xí)到的新特征可以重構(gòu)出原始輸入數(shù)據(jù),稱之為解碼(decoding)。
    的頭像 發(fā)表于 08-02 16:47 ?1.8w次閱讀

    自編碼器介紹

    自編碼器若僅要求X≈Y,且對(duì)隱藏神經(jīng)元進(jìn)行稀疏約束,從而使大部分節(jié)點(diǎn)值為0或接近0的無(wú)效值,便得到稀疏自動(dòng)編碼算法。一般情況下,隱含層的神經(jīng)元數(shù)應(yīng)少于輸入X的個(gè)數(shù),因?yàn)榇藭r(shí)才能保證這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的價(jià)值。
    發(fā)表于 06-11 15:07 ?4930次閱讀

    稀疏自編碼器及TensorFlow實(shí)現(xiàn)詳解

     稀疏自編碼器(又稱稀疏自動(dòng)編碼機(jī))中,重構(gòu)誤差中添加了一個(gè)稀疏懲罰,用來(lái)限定任何時(shí)刻的隱藏層中并不是所有單元都被激活。如果 m 是輸入模式的總數(shù),那么可以定義一個(gè)參數(shù) ρ_hat,用來(lái)表示每個(gè)隱藏層單元的行為(平均激活多少次)。
    發(fā)表于 06-11 16:45 ?3858次閱讀
    稀疏<b class='flag-5'>自編碼器</b>及TensorFlow實(shí)現(xiàn)詳解

    自編碼器基礎(chǔ)理論與實(shí)現(xiàn)方法、應(yīng)用綜述

    自編碼器是深度學(xué)習(xí)中的一種非常重要的無(wú)監(jiān)督學(xué)習(xí)方法,能夠從大量無(wú)標(biāo)簽的數(shù)據(jù)中自動(dòng)學(xué)習(xí),得到蘊(yùn)含在數(shù)據(jù)中的有效特征。因此,自編碼方法近年來(lái)受到了廣泛的關(guān)注,已成功應(yīng)用于很多領(lǐng)域,例如數(shù)據(jù)分類、模式識(shí)別
    發(fā)表于 03-31 11:24 ?9次下載
    <b class='flag-5'>自編碼器</b>基礎(chǔ)理論與實(shí)現(xiàn)<b class='flag-5'>方法</b>、應(yīng)用綜述

    一種多通道自編碼器深度學(xué)習(xí)的入侵檢測(cè)方法

      針對(duì)現(xiàn)有的入侵檢測(cè)方法在檢測(cè)準(zhǔn)確率和誤報(bào)率方面存在的不足,提岀了一種多通道自編碼器深度學(xué)習(xí)的入侵檢測(cè)方法。該方法分為無(wú)監(jiān)督學(xué)習(xí)和有
    發(fā)表于 04-07 15:23 ?7次下載
    一種多通道<b class='flag-5'>自編碼器</b>深度學(xué)習(xí)的入侵檢測(cè)<b class='flag-5'>方法</b>

    一種基于變分自編碼器的人臉圖像修復(fù)方法

    基于卷積神經(jīng)網(wǎng)絡(luò)的人臉圖像修復(fù)技術(shù)在刑事偵破、文物保護(hù)及影視特效等領(lǐng)域有著重要的應(yīng)用。但現(xiàn)有方法存在著圖像修復(fù)結(jié)果不夠清晰以及結(jié)果多樣化不足等缺點(diǎn),為此,提出了一種基于變分自編碼器的人臉圖像修復(fù)方法
    發(fā)表于 04-21 10:51 ?10次下載
    一種基于變分<b class='flag-5'>自編碼器</b>的人臉圖像修復(fù)<b class='flag-5'>方法</b>

    基于變分自編碼器的網(wǎng)絡(luò)表示學(xué)習(xí)方法

    ,將這些信息融入到網(wǎng)絡(luò)表示學(xué)習(xí)過(guò)程中,有助于提升下游任務(wù)的性能。但是針對(duì)不同的應(yīng)用場(chǎng)景,結(jié)構(gòu)和屬性信息并不總是線性相關(guān),而且它們都是高度非線性的數(shù)據(jù)。提岀一種基于變分自編碼器的網(wǎng)絡(luò)表示學(xué)習(xí)方法 VANRL。變分
    發(fā)表于 05-12 14:50 ?27次下載

    基于自編碼特征的語(yǔ)音聲學(xué)綜合特征提取

    信噪比衡量)很低。在不影響可懂度的情況下,為了提高語(yǔ)音増強(qiáng)后語(yǔ)音質(zhì)量,提出了一種基于自編碼特征的綜合特征。首先利用自編碼器提取自編碼特征,然后利用 Group Lasso算法驗(yàn)證自編碼
    發(fā)表于 05-19 16:33 ?27次下載

    自編碼器神經(jīng)網(wǎng)絡(luò)應(yīng)用及實(shí)驗(yàn)綜述

    自編碼器是深度學(xué)習(xí)中的一種非常重要的無(wú)監(jiān)督學(xué)習(xí)方法,能夠從大量無(wú)標(biāo)簽的數(shù)據(jù)中自動(dòng)學(xué)習(xí),得到蘊(yùn)含在數(shù)據(jù)中的有效特征。因此,自編碼方法近年來(lái)受到了廣泛的關(guān)注,已成功應(yīng)用于很多領(lǐng)域,例如數(shù)據(jù)分類、模式識(shí)別
    發(fā)表于 06-07 16:38 ?7次下載

    基于無(wú)監(jiān)督稀疏自編碼的圖像哈希算法

    基于無(wú)監(jiān)督稀疏自編碼的圖像哈希算法
    發(fā)表于 06-28 16:46 ?32次下載

    堆疊降噪自動(dòng)編碼器(SDAE)

    自動(dòng)編碼器(Auto-Encoder,AE) 自編碼器(autoencoder)是神經(jīng)網(wǎng)絡(luò)的一種,經(jīng)過(guò)訓(xùn)練后能嘗試將輸入復(fù)制到輸出。自編碼器內(nèi)部有一個(gè)隱藏層 h,可以產(chǎn)生編碼(code
    的頭像 發(fā)表于 01-11 17:04 ?6566次閱讀
    堆疊降噪自動(dòng)<b class='flag-5'>編碼器</b>(SDAE)

    自編碼器 AE(AutoEncoder)程序

    原文鏈接 1.程序講解 (1)香草編碼器 在這種自編碼器的最簡(jiǎn)單結(jié)構(gòu)中,只有三個(gè)網(wǎng)絡(luò)層,即只有一個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)。它的輸入和輸出是相同的,可通過(guò)使用Adam優(yōu)化和均方誤差損失函數(shù),來(lái)學(xué)習(xí)如何重構(gòu)
    的頭像 發(fā)表于 01-11 17:29 ?1361次閱讀
    <b class='flag-5'>自編碼器</b> AE(AutoEncoder)程序

    自編碼器的原理和類型

    自編碼器(Autoencoder, AE)是一種無(wú)監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,它通過(guò)編碼器和解碼的組合,實(shí)現(xiàn)了對(duì)輸入數(shù)據(jù)的壓縮和重構(gòu)。自編碼器
    的頭像 發(fā)表于 07-09 11:25 ?1206次閱讀