日韩激情综合一区二区,亚洲精品5555在线,日韩精品无码观看视频免费

2. 介紹

CLIP是近年來在多模態(tài)方面的經(jīng)典之作，得益于大量的數(shù)據(jù)和算力對模型進(jìn)行預(yù)訓(xùn)練，模型的Zero-shot性能非?？捎^，甚至可以在眾多數(shù)據(jù)集上和有監(jiān)督訓(xùn)練媲美。簡單來說，CLIP的high-level的idea非常直接，就是通過對比學(xué)習(xí)，對圖像特征空間和文本特征空間進(jìn)行對齊，給定任意圖像和文本都可以映射到這個空間中，然后這些圖像和文本就可以直接計算相似度。通過這種方式，CLIP填平了文本和視覺信息的gap。

CLIP是基于分類任務(wù)完成的，那么相應(yīng)的，我們就不免思考其在檢測和分割領(lǐng)域能否也發(fā)揮比較好的效果。如何不依賴于手工標(biāo)注的分割標(biāo)注，如何能真真的做到去用文本來作為監(jiān)督信號來指導(dǎo)模型訓(xùn)練，就是非常值得思考的一個問題。下面我們就來介紹一個基于CLIP的zero-shot實例分割方法。

對于傳統(tǒng)做分割的模型的一種方法就是通過像素相似度進(jìn)行語義分割。

首先在圖上找一些中心點，然后通過像素相似然后將附近像素給到不同的目標(biāo)區(qū)域，最終獲得segmentation mask區(qū)域。如上圖所示，為了實現(xiàn)擺脫手工標(biāo)注這一目標(biāo)，論文提出將分割中經(jīng)典的group機(jī)制引入到深度網(wǎng)絡(luò)中，通過這種機(jī)制，語義的信息段可以在只需要文本監(jiān)督的情景下自動出現(xiàn)。

通過對具有對比損失的大規(guī)模成對vision-language數(shù)據(jù)進(jìn)行訓(xùn)練，我們可以將模型zero-shot轉(zhuǎn)移到多個語義分割到word table中，而不需要進(jìn)一步的注釋或微調(diào)。

總結(jié)論文的貢獻(xiàn)如下：

在深度網(wǎng)絡(luò)中，我們超越了規(guī)則形狀的圖像網(wǎng)格，引入了一種新的Group ViT體系結(jié)構(gòu)，將視覺概念分層自下而上地分組為不規(guī)則形狀的組。

在不依賴任何像素級的標(biāo)注情況下，只采用圖像級文本監(jiān)督，成功地學(xué)會了將圖像區(qū)域分組，并以zero-shot的模式遷移到多個語義分割詞匯表。

本文是第一份在不使用任何像素標(biāo)簽的情況下探索從文本監(jiān)督到多個語義分割任務(wù)的零鏡頭轉(zhuǎn)移的工作，并為這一新任務(wù)建立了堅實的基線。

3. 方法

如上圖所示，本文提出的結(jié)構(gòu)在ViT基礎(chǔ)上進(jìn)行設(shè)計，是一個dual-encoder的結(jié)構(gòu)。訓(xùn)練過程主要分為三部：

第一步：把原始的image作為輸入，利用ViT結(jié)構(gòu)的encoder進(jìn)行圖像編碼。將圖像分成若干個patch之后，將每個patch作為path embedding的向量信息，構(gòu)建出部分的數(shù)據(jù)矩陣，然后利用線性層映射出一個embedding的數(shù)據(jù)。然后將圖像中的不同patch得到的embedding進(jìn)行分類，構(gòu)建出64*384大小的group token矩陣塊。

這里有兩種實現(xiàn)的方式，第一種，對于2-stage類型的GroupViT，

在GroupViT的第一階段，經(jīng)過Transformer layers操作后可以得到64個group tokens，然后在6層Transformer層后插入grouping block。

在GroupViT的第二階段，grouping之后，都會得到8個segment tokens。對于1-stage類型的GroupViT，就非常簡單直接了，在grouping block之前，將64個group tokens通過MLP-Mixer layer映射成8個segment tokens。

然后Grouping Block將學(xué)到的group tokens 和image segment tokens作為輸入，通過Grouping Block更新image tokens，利用這些tokens將相似的images歸并到一起。每經(jīng)過一個grouping stage，能夠得到更大更少的image segments。

第二步：基于上一步輸出的8384的group token后把文本數(shù)據(jù)和得到的數(shù)據(jù)聯(lián)合進(jìn)行訓(xùn)練。為了和Text信息進(jìn)行關(guān)聯(lián)，能夠機(jī)選Clip的內(nèi)積，需要把8維映射為1維，為了方便簡單，論文直接用avg pooling處理；

論文的訓(xùn)練loss有兩項，包括image-text loss和multi-label contrastive loss with text prompting。

image-text loss包括image to text和text to image兩項：

multi-label contrastive loss with text prompting涉及到較為復(fù)雜的操作，可以參考原文進(jìn)一步了解：

第三步：通過設(shè)計好的GroupViT結(jié)構(gòu)，模型能夠自動將image分組成一個個的segment，所以可以很容易的zero-shot transfer到語義分割任務(wù)上，而不需要微調(diào)。由于GroupViT自動將圖像分組為語義相似的片段，它的輸出可以很容易地轉(zhuǎn)移到語義分割，而無需進(jìn)一步的微調(diào)。如圖4所示。

為了推斷圖像的片段屬于對象類的有限詞匯table，論文通過Group VIT來傳遞一個測試圖像，而不對其最終的L輸出段應(yīng)用AvgPool，并得到每個片段的嵌入為。每個段標(biāo)記對應(yīng)于輸入圖像的任意形狀的區(qū)域。然后，我們計算每個段標(biāo)記的嵌入與數(shù)據(jù)集中所有語義類的文本嵌入之間的相似性。

我們將每個圖像片段分配給圖像文本embedding相似度最高的語義類定為最終分割結(jié)果。

4. 實驗結(jié)果

在無監(jiān)督的情況下，自然是相較于其他的對比學(xué)習(xí)方式有了比較明顯的提升，但顯然和有監(jiān)督的setting表現(xiàn)還是有一定的gap的（如VOC可以達(dá)到80%+），由此可見，無監(jiān)督的語義分割還是有一定進(jìn)步的空間的。

為了將CLIP zero-shot轉(zhuǎn)換為語義分割，在推理過程中首先對其輸出特征進(jìn)行non-parametric的分組。然后計算每組的特征均值與數(shù)據(jù)集分割標(biāo)簽的文本embeddings之間的相似度。這樣，任何結(jié)合CLIP的ViT非參數(shù)分組方法都可以被認(rèn)為是一個零鏡頭的語義分割基線。如表4所示，分組ViT的性能大大優(yōu)于其他分組方法。這表明，與使用CLIP訓(xùn)練的ViT相比，我們的GroupViT在zero-shot轉(zhuǎn)換到語義分割方面更有效。

5. 結(jié)論

本文邁出了學(xué)習(xí)零樣本語義分割的第一步，也是重要一步，在只有文本，沒有任何明確的人類標(biāo)注的監(jiān)督下進(jìn)行自監(jiān)督。我們證明，使用GroupViT，從大規(guī)模噪聲圖像-文本對中學(xué)習(xí)到的表示可以以零鏡頭的方式轉(zhuǎn)移到語義分割。這項工作也證明了除了圖像分類之外，文本監(jiān)督也可以轉(zhuǎn)移到更細(xì)粒度的視覺任務(wù)中，這是以前沒有探索過的，開辟了一個非常有趣的研究方向。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴