0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹一個(gè)基于CLIP的zero-shot實(shí)例分割方法

jf_pmFSk4VX ? 來(lái)源:GiantPandaCV ? 作者:Garfield ? 2022-10-13 09:13 ? 次閱讀

2. 介紹

CLIP是近年來(lái)在多模態(tài)方面的經(jīng)典之作,得益于大量的數(shù)據(jù)和算力對(duì)模型進(jìn)行預(yù)訓(xùn)練,模型的Zero-shot性能非??捎^,甚至可以在眾多數(shù)據(jù)集上和有監(jiān)督訓(xùn)練媲美。簡(jiǎn)單來(lái)說(shuō),CLIP的high-level的idea非常直接,就是通過(guò)對(duì)比學(xué)習(xí),對(duì)圖像特征空間和文本特征空間進(jìn)行對(duì)齊,給定任意圖像和文本都可以映射到這個(gè)空間中,然后這些圖像和文本就可以直接計(jì)算相似度。通過(guò)這種方式,CLIP填平了文本和視覺(jué)信息的gap。

CLIP是基于分類任務(wù)完成的,那么相應(yīng)的,我們就不免思考其在檢測(cè)和分割領(lǐng)域能否也發(fā)揮比較好的效果。如何不依賴于手工標(biāo)注的分割標(biāo)注,如何能真真的做到去用文本來(lái)作為監(jiān)督信號(hào)來(lái)指導(dǎo)模型訓(xùn)練,就是非常值得思考的一個(gè)問(wèn)題。下面我們就來(lái)介紹一個(gè)基于CLIP的zero-shot實(shí)例分割方法。

4ada392e-4a8f-11ed-a3b6-dac502259ad0.png


對(duì)于傳統(tǒng)做分割的模型的一種方法就是通過(guò)像素相似度進(jìn)行語(yǔ)義分割。

首先在圖上找一些中心點(diǎn),然后通過(guò)像素相似然后將附近像素給到不同的目標(biāo)區(qū)域,最終獲得segmentation mask區(qū)域。如上圖所示,為了實(shí)現(xiàn)擺脫手工標(biāo)注這一目標(biāo),論文提出將分割中經(jīng)典的group機(jī)制引入到深度網(wǎng)絡(luò)中,通過(guò)這種機(jī)制,語(yǔ)義的信息段可以在只需要文本監(jiān)督的情景下自動(dòng)出現(xiàn)。

通過(guò)對(duì)具有對(duì)比損失的大規(guī)模成對(duì)vision-language數(shù)據(jù)進(jìn)行訓(xùn)練,我們可以將模型zero-shot轉(zhuǎn)移到多個(gè)語(yǔ)義分割到word table中,而不需要進(jìn)一步的注釋或微調(diào)。

總結(jié)論文的貢獻(xiàn)如下:

在深度網(wǎng)絡(luò)中,我們超越了規(guī)則形狀的圖像網(wǎng)格,引入了一種新的Group ViT體系結(jié)構(gòu),將視覺(jué)概念分層自下而上地分組為不規(guī)則形狀的組。

在不依賴任何像素級(jí)的標(biāo)注情況下,只采用圖像級(jí)文本監(jiān)督,成功地學(xué)會(huì)了將圖像區(qū)域分組,并以zero-shot的模式遷移到多個(gè)語(yǔ)義分割詞匯表。

本文是第一份在不使用任何像素標(biāo)簽的情況下探索從文本監(jiān)督到多個(gè)語(yǔ)義分割任務(wù)的零鏡頭轉(zhuǎn)移的工作,并為這一新任務(wù)建立了堅(jiān)實(shí)的基線。

3. 方法

4b227b3a-4a8f-11ed-a3b6-dac502259ad0.png


如上圖所示,本文提出的結(jié)構(gòu)在ViT基礎(chǔ)上進(jìn)行設(shè)計(jì),是一個(gè)dual-encoder的結(jié)構(gòu)。訓(xùn)練過(guò)程主要分為三部:

第一步:把原始的image作為輸入,利用ViT結(jié)構(gòu)的encoder進(jìn)行圖像編碼。將圖像分成若干個(gè)patch之后,將每個(gè)patch作為path embedding的向量信息,構(gòu)建出 部分的數(shù)據(jù)矩陣,然后利用線性層映射出一個(gè)embedding的數(shù)據(jù)。然后將圖像中的不同patch得到的embedding進(jìn)行分類,構(gòu)建出64*384大小的group token矩陣塊。

這里有兩種實(shí)現(xiàn)的方式,第一種,對(duì)于2-stage類型的GroupViT,

在GroupViT的第一階段,經(jīng)過(guò)Transformer layers操作后可以得到64個(gè)group tokens,然后在6層Transformer層后插入grouping block。

在GroupViT的第二階段,grouping之后,都會(huì)得到8個(gè)segment tokens。對(duì)于1-stage類型的GroupViT,就非常簡(jiǎn)單直接了,在grouping block之前,將64個(gè)group tokens通過(guò)MLP-Mixer layer映射成8個(gè)segment tokens。

然后Grouping Block將學(xué)到的group tokens 和image segment tokens作為輸入,通過(guò)Grouping Block更新image tokens,利用這些tokens將相似的images歸并到一起。每經(jīng)過(guò)一個(gè)grouping stage,能夠得到更大更少的image segments。

4b4f4444-4a8f-11ed-a3b6-dac502259ad0.png

第二步:基于上一步輸出的8384的group token后把文本數(shù)據(jù)和得到的數(shù)據(jù)聯(lián)合進(jìn)行訓(xùn)練。為了和Text信息進(jìn)行關(guān)聯(lián),能夠機(jī)選Clip的內(nèi)積,需要把8維映射為1維,為了方便簡(jiǎn)單,論文直接用avg pooling處理;

論文的訓(xùn)練loss有兩項(xiàng),包括image-text loss和multi-label contrastive loss with text prompting。

image-text loss包括image to text和text to image兩項(xiàng):

4b7e3e2a-4a8f-11ed-a3b6-dac502259ad0.png4baff9a6-4a8f-11ed-a3b6-dac502259ad0.png

multi-label contrastive loss with text prompting涉及到較為復(fù)雜的操作,可以參考原文進(jìn)一步了解:

4bc7ad12-4a8f-11ed-a3b6-dac502259ad0.png


第三步:通過(guò)設(shè)計(jì)好的GroupViT結(jié)構(gòu),模型能夠自動(dòng)將image分組成一個(gè)個(gè)的segment,所以可以很容易的zero-shot transfer到語(yǔ)義分割任務(wù)上,而不需要微調(diào)。由于GroupViT自動(dòng)將圖像分組為語(yǔ)義相似的片段,它的輸出可以很容易地轉(zhuǎn)移到語(yǔ)義分割,而無(wú)需進(jìn)一步的微調(diào)。如圖4所示。

為了推斷圖像的片段屬于對(duì)象類的有限詞匯table,論文通過(guò)Group VIT來(lái)傳遞一個(gè)測(cè)試圖像,而不對(duì)其最終的L輸出段應(yīng)用AvgPool,并得到每個(gè)片段的嵌入為。每個(gè)段標(biāo)記對(duì)應(yīng)于輸入圖像的任意形狀的區(qū)域。然后,我們計(jì)算每個(gè)段標(biāo)記的嵌入與數(shù)據(jù)集中所有語(yǔ)義類的文本嵌入之間的相似性。

我們將每個(gè)圖像片段分配給圖像文本embedding相似度最高的語(yǔ)義類定為最終分割結(jié)果。

4. 實(shí)驗(yàn)結(jié)果

4bea5c7c-4a8f-11ed-a3b6-dac502259ad0.png

在無(wú)監(jiān)督的情況下,自然是相較于其他的對(duì)比學(xué)習(xí)方式有了比較明顯的提升,但顯然和有監(jiān)督的setting表現(xiàn)還是有一定的gap的(如VOC可以達(dá)到80%+),由此可見(jiàn),無(wú)監(jiān)督的語(yǔ)義分割還是有一定進(jìn)步的空間的。

4c1b2a50-4a8f-11ed-a3b6-dac502259ad0.png


為了將CLIP zero-shot轉(zhuǎn)換為語(yǔ)義分割,在推理過(guò)程中首先對(duì)其輸出特征進(jìn)行non-parametric的分組。然后計(jì)算每組的特征均值與數(shù)據(jù)集分割標(biāo)簽的文本embeddings之間的相似度。這樣,任何結(jié)合CLIP的ViT非參數(shù)分組方法都可以被認(rèn)為是一個(gè)零鏡頭的語(yǔ)義分割基線。如表4所示,分組ViT的性能大大優(yōu)于其他分組方法。這表明,與使用CLIP訓(xùn)練的ViT相比,我們的GroupViT在zero-shot轉(zhuǎn)換到語(yǔ)義分割方面更有效。

5. 結(jié)論

本文邁出了學(xué)習(xí)零樣本語(yǔ)義分割的第一步,也是重要一步,在只有文本,沒(méi)有任何明確的人類標(biāo)注的監(jiān)督下進(jìn)行自監(jiān)督。我們證明,使用GroupViT,從大規(guī)模噪聲圖像-文本對(duì)中學(xué)習(xí)到的表示可以以零鏡頭的方式轉(zhuǎn)移到語(yǔ)義分割。這項(xiàng)工作也證明了除了圖像分類之外,文本監(jiān)督也可以轉(zhuǎn)移到更細(xì)粒度的視覺(jué)任務(wù)中,這是以前沒(méi)有探索過(guò)的,開(kāi)辟了一個(gè)非常有趣的研究方向。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像編碼
    +關(guān)注

    關(guān)注

    0

    文章

    26

    瀏覽量

    8333
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    31

    瀏覽量

    6670

原文標(biāo)題:CVPR 2022: GroupViT 基于文本監(jiān)督的語(yǔ)義分割算法

文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于將 CLIP 用于下游few-shot圖像分類的方案

    對(duì)比性圖像語(yǔ)言預(yù)訓(xùn)練模型(CLIP)在近期展現(xiàn)出了強(qiáng)大的視覺(jué)領(lǐng)域遷移能力,可以在個(gè)全新的下游數(shù)據(jù)集上進(jìn)行 zero-shot 圖像識(shí)別。
    的頭像 發(fā)表于 09-27 09:46 ?5339次閱讀

    圖像分割的基本方法解析

    本文詳細(xì)介紹了圖像分割的基本方法有:基于邊緣的圖像分割方法、閾值分割
    發(fā)表于 12-20 11:06 ?10.9w次閱讀
    圖像<b class='flag-5'>分割</b>的基本<b class='flag-5'>方法</b>解析

    在機(jī)器學(xué)習(xí)中如何進(jìn)行基本翻譯

    Statsbot數(shù)據(jù)科學(xué)家Daniil Korbut簡(jiǎn)明扼要地介紹了用于機(jī)器學(xué)習(xí)翻譯的基本原理:RNN、LSTM、BRNN、Seq2Seq、Zero-Shot、BLEU。
    的頭像 發(fā)表于 12-22 11:38 ?5745次閱讀
    在機(jī)器學(xué)習(xí)中如何進(jìn)行基本翻譯

    Facebook AI使用單神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)同時(shí)完成實(shí)例分割和語(yǔ)義分割

    新架構(gòu)“全景 FPN ”在 Facebook 2017 年發(fā)布的 Mask R-CNN 的基礎(chǔ)上添加了個(gè)用于語(yǔ)義分割的分支。這新架構(gòu)
    的頭像 發(fā)表于 04-22 11:46 ?2892次閱讀
    Facebook AI使用單<b class='flag-5'>一</b>神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)同時(shí)完成<b class='flag-5'>實(shí)例</b><b class='flag-5'>分割</b>和語(yǔ)義<b class='flag-5'>分割</b>

    個(gè)很小的Pascal VOC數(shù)據(jù)集上訓(xùn)練個(gè)實(shí)例分割模型

    的應(yīng)用,如自動(dòng)駕駛汽車或醫(yī)療診斷。在這些任務(wù)中,我們依靠機(jī)器的能力來(lái)識(shí)別物體。 我們經(jīng)??吹降呐c目標(biāo)識(shí)別相關(guān)的任務(wù)有4個(gè):分類和定位、目標(biāo)檢測(cè)、語(yǔ)義分割實(shí)例分割。 在分類和定位中,我
    的頭像 發(fā)表于 12-26 11:26 ?6079次閱讀

    Zero-shot-CoT是multi-task的方法

    大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型借助于針對(duì)特定任務(wù)設(shè)計(jì)的prompt(無(wú)論是few shot還是zero shot),在單步驟的system-1任務(wù)上有著出色表現(xiàn),但是對(duì)于那些緩慢和需要多步推理的system-2任務(wù)表現(xiàn)不佳。
    的頭像 發(fā)表于 06-15 10:53 ?2435次閱讀

    從預(yù)訓(xùn)練語(yǔ)言模型看MLM預(yù)測(cè)任務(wù)

    的prompt情感分類實(shí)踐以及基于zero-shot的promptNER實(shí)體識(shí)別實(shí)踐五個(gè)方面,進(jìn)行代碼介紹,供大家起思考。
    的頭像 發(fā)表于 11-14 14:56 ?3153次閱讀

    基于GLM-6B對(duì)話模型的實(shí)體屬性抽取項(xiàng)目實(shí)現(xiàn)解析

    Zero-shot、One-shot以及Few-shot讓人傻傻分不清,讀了很多文章,也沒(méi)搞清楚他們的差別,究竟什么叫zero-shot,其在應(yīng)用過(guò)程中的no gradient upd
    的頭像 發(fā)表于 03-28 10:11 ?7014次閱讀

    邁向多模態(tài)AGI之開(kāi)放世界目標(biāo)檢測(cè)

    OVD的基礎(chǔ)概念:OVD的使用主要涉及到 few-shotzero-shot兩大類場(chǎng)景,few-shot是指有少量人工標(biāo)注訓(xùn)練樣本的目標(biāo)類別,zero-shot則是指不存在任何人
    的頭像 發(fā)表于 06-15 16:08 ?800次閱讀
    邁向多模態(tài)AGI之開(kāi)放世界目標(biāo)檢測(cè)

    基于通用的模型PADing解決三大分割任務(wù)

    數(shù)據(jù)需要消耗巨大的時(shí)間以及人力成本。為處理上述難題,零樣本學(xué)習(xí)(Zero-Shot Learning,ZSL)被提出用于分類沒(méi)有訓(xùn)練樣本的新對(duì)象,并擴(kuò)展到分割任務(wù)中,例如零樣本語(yǔ)義分割Zer
    的頭像 發(fā)表于 06-26 10:39 ?548次閱讀
    基于通用的模型PADing解決三大<b class='flag-5'>分割</b>任務(wù)

    CVPR 2023 | 華科&amp;MSRA新作:基于CLIP的輕量級(jí)開(kāi)放詞匯語(yǔ)義分割架構(gòu)

    Adapter Network (SAN)的新框架,用于基于預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型進(jìn)行開(kāi)放式語(yǔ)義分割。該方法將語(yǔ)義分割任務(wù)建模為區(qū)域識(shí)別問(wèn)題,并通過(guò)附加
    的頭像 發(fā)表于 07-10 10:05 ?1091次閱讀
    CVPR 2023 | 華科&amp;MSRA新作:基于<b class='flag-5'>CLIP</b>的輕量級(jí)開(kāi)放詞匯語(yǔ)義<b class='flag-5'>分割</b>架構(gòu)

    APE:對(duì)CLIP進(jìn)行特征提純能夠提升Few-shot性能

    CLIP個(gè)通用的模型,考慮到下游數(shù)據(jù)分布的差異,對(duì)某個(gè)下游任務(wù)來(lái)說(shuō),CLIP提取的特征并不全是有用的,可能包含部分冗余或噪聲。因此,在
    的頭像 發(fā)表于 07-19 14:19 ?1750次閱讀
    APE:對(duì)<b class='flag-5'>CLIP</b>進(jìn)行特征提純能夠提升Few-<b class='flag-5'>shot</b>性能

    在英特爾開(kāi)發(fā)套件上用OpenVIN實(shí)現(xiàn)中文圖文檢索

    embedding,根據(jù)特征相似度匹配可完成圖像分類和相似查找任務(wù)。CLIP 模型的 zero-shot 分類效果就能達(dá)到在 Imagenet 上監(jiān)督訓(xùn)練的 ResNet 分類效果,且有更好的泛化和抽象能力。
    的頭像 發(fā)表于 10-27 11:06 ?883次閱讀
    在英特爾開(kāi)發(fā)套件上用OpenVIN實(shí)現(xiàn)中文圖文檢索

    基于AX650N+CLIP的以文搜圖展示

    能否有種“識(shí)別萬(wàn)物”的圖像識(shí)別大模型呢?今天就借此機(jī)會(huì),通過(guò)實(shí)操來(lái)重溫下由OpenAI在2021年初發(fā)布的Zero-Shot視覺(jué)分類模型CLIP,并移植到愛(ài)芯派Pro上實(shí)現(xiàn)簡(jiǎn)單的以圖搜文示例。
    的頭像 發(fā)表于 11-01 16:44 ?1471次閱讀
    基于AX650N+<b class='flag-5'>CLIP</b>的以文搜圖展示

    基于顯式證據(jù)推理的few-shot關(guān)系抽取CoT

    最近,上下文學(xué)習(xí)策略已被證明在沒(méi)有訓(xùn)練的情況下顯示出顯著的結(jié)果。很少有研究利用上下文學(xué)習(xí)進(jìn)行zero-shot信息提取。不幸的是,推理的證據(jù)在思維鏈提示的構(gòu)建過(guò)程中沒(méi)有被考慮或隱式建模。
    的頭像 發(fā)表于 11-20 17:44 ?911次閱讀
    基于顯式證據(jù)推理的few-<b class='flag-5'>shot</b>關(guān)系抽取CoT