0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于通用的模型PADing解決三大分割任務(wù)

CVer ? 來源:CVer ? 2023-06-26 10:39 ? 次閱讀

1. 研究動(dòng)機(jī)

圖像分割旨在將具有不同語義的像素進(jìn)行分類進(jìn)而分組,例如類別或?qū)嵗陙砣〉蔑w速的發(fā)展。然而,由于深度學(xué)習(xí)方法是數(shù)據(jù)驅(qū)動(dòng)的,對大規(guī)模標(biāo)記訓(xùn)練樣本的強(qiáng)烈需求導(dǎo)致了巨大的挑戰(zhàn),這些訓(xùn)練數(shù)據(jù)需要消耗巨大的時(shí)間以及人力成本。為處理上述難題,零樣本學(xué)習(xí)(Zero-Shot Learning,ZSL)被提出用于分類沒有訓(xùn)練樣本的新對象,并擴(kuò)展到分割任務(wù)中,例如零樣本語義分割(Zero-Shot Semantic Segmentation, ZSS)和零樣本實(shí)例分割(Zero-Shot Instance Segmentation, ZSI)。在此基礎(chǔ)上,本文進(jìn)一步引入零樣本全景分割(Zero-Shot Panoptic Segmentation, ZSP)并旨在利用語義知識構(gòu)建一個(gè)通用的零樣本全景/語義/實(shí)例分割框架,如圖1所示。

本文從為未知類別生成更好的偽特征出發(fā)來設(shè)計(jì)一個(gè)通用的模型PADing解決三大分割任務(wù)。針對通用分割存在的共性問題:視覺與語言差異以及類別偏見問題,旨在實(shí)現(xiàn)對于新類別的全景、實(shí)例和語義分割。本文基于零樣本通用分割方法PADing開展定量實(shí)驗(yàn)和定性可視化,研究結(jié)果表明,相對于主流方法,該方法在定量實(shí)驗(yàn)結(jié)果和定性可視化結(jié)果方面表現(xiàn)出色。

本文貢獻(xiàn)主要包括以下四點(diǎn):

研究了通用的零樣本分割問題,并提出了一種名為基于協(xié)作關(guān)系對齊和特征解耦學(xué)習(xí)的基元生成(Primitive generation with collaborative relationship Alignment and feature Disentanglement learning,PADing)的統(tǒng)一框架來處理零樣本語義分割、實(shí)例分割和全景分割問題。

提出了一種基元生成器,它使用許多帶有細(xì)粒度屬性的學(xué)習(xí)基元來合成未見過類別的視覺特征,有助于解決偏差問題和域間差距問題。

提出了一種協(xié)作關(guān)系對齊和特征解耦學(xué)習(xí)方法,以促進(jìn)生成器產(chǎn)生更好的合成特征。

提出的方法PADing在零樣本全景分割(ZSP)、零樣本實(shí)例分割(ZSI)和零樣本語義分割(ZSS)上取得了新的最先進(jìn)性能。

2. 方法

2.1 方法概述

本文提出的方法基于協(xié)作關(guān)系對齊和特征解耦學(xué)習(xí)的基元生成PADing,其總體架構(gòu)如圖2所示。首先,Backbone預(yù)測了一組與類無關(guān)的掩碼及其相應(yīng)的類向量。接著,基元生成器經(jīng)過訓(xùn)練,可以從語義向量中合成類向量。然后,將真實(shí)的與合成類向量被分解為與語義相關(guān)和與語義無關(guān)的特征,并在語義相關(guān)的特征上進(jìn)行關(guān)系對齊學(xué)習(xí)。最后,通過合成未知類別的向量,用實(shí)際已知類別的真實(shí)向量和未知類別的合成向量進(jìn)行重新微調(diào)訓(xùn)練分類器。

ac14b2a4-1371-11ee-962d-dac502259ad0.png

圖2: PADing框架結(jié)構(gòu)圖

2.2 基元跨模態(tài)生成

由于缺乏未知類別的樣本,分類器不能使用未知類別的特征進(jìn)行優(yōu)化。因此,僅使用已知類別的特征進(jìn)行訓(xùn)練的分類器往往會將所有對象標(biāo)記為已知類別,這稱為偏置問題。先前的方法提出利用生成模型來為未知類別合成假的視覺特征。雖然達(dá)到了良好的性能,但并未考慮特征粒度的視覺-語義差異。眾所周知,圖像通常包含比語言更豐富的信息。視覺信息提供了對象的非常精細(xì)的屬性,而文本信息通常提供抽象和高級別的屬性。這種差異導(dǎo)致了視覺特征和語義特征之間的不一致。為了解決這一挑戰(zhàn),本文提出了一個(gè)基于基元的跨模態(tài)生成器,利用大量學(xué)習(xí)到的屬性基元來構(gòu)建視覺表示。

先初始化一堆可學(xué)習(xí)的基元,希望它能學(xué)習(xí)到細(xì)粒度的信息,具體的方法是利用Transformer將語義向量和基元組都輸入到網(wǎng)絡(luò)中,首先語義向量先與基元組計(jì)算相似度,選擇其與語義向量最為相關(guān)型的基元后并加入高斯噪聲。這樣就得到由基元組成的特征,當(dāng)輸入一個(gè)語義向量,能輸出生成相應(yīng)的視覺向量。最后用MMD損失來拉近這兩個(gè)生成與真實(shí)的視覺向量特征?;拖袷钦Z言與視覺之間的橋梁,消除兩者之間的域內(nèi)差異。

ac2decec-1371-11ee-962d-dac502259ad0.png

圖3: 基元跨模態(tài)生成的結(jié)構(gòu)示意圖

2.3 語義-視覺關(guān)系對齊

眾所周知,類別之間的關(guān)系自然上是不同的。例如,有三個(gè)對象:蘋果、橙子和奶牛。顯然,蘋果和橙子之間的關(guān)系比蘋果和奶牛之間的關(guān)系更緊密。語義空間中的類別關(guān)系是強(qiáng)大的先驗(yàn)知識,而類別特定的特征生成并沒有明確利用這種關(guān)系。也就是語義空間中關(guān)系相近的物體,在視覺空間也應(yīng)該相近,具有相似的分布。但通常的方法一般直接將語義空間的關(guān)系暴力地遷移到視覺空間中。這樣并不能有效的利用語義關(guān)系,因?yàn)檎Z義和視覺本來就不是相互對齊的空間,視覺特征包含更多信息,而語義特征可以看作是信息的濃縮。也就是視覺特征中多了多余的信息。所以本文考慮到了將視覺特征進(jìn)行解耦之后再進(jìn)行關(guān)系對齊。解耦的方法也就是分成了語義相關(guān)特征與語義無關(guān)特征,然后將視覺的語義相關(guān)特征再與語義特征對齊。語義無關(guān)特征希望其符合正態(tài)分布刻畫著沒有具體語義信息的特征。而語義相關(guān)特征需要其能通過特征將其分到指定語義信息中。

ac537246-1371-11ee-962d-dac502259ad0.png

圖4: 語義-視覺關(guān)系對齊示意圖

3. 實(shí)驗(yàn)

3.1 定量結(jié)果實(shí)驗(yàn)

為了驗(yàn)證本文方法的有效性,在COCO數(shù)據(jù)上針對全景分割、實(shí)例分割、語義分割上進(jìn)行了對比實(shí)驗(yàn),見表1、2、3。實(shí)驗(yàn)結(jié)果表明,本文方法PADing取得先進(jìn)的性能。

ac757ee0-1371-11ee-962d-dac502259ad0.png

表1: 零樣本全景分割結(jié)果

ac86033c-1371-11ee-962d-dac502259ad0.png

表2: 零樣本語義分割結(jié)果

ac9328aa-1371-11ee-962d-dac502259ad0.png

表1: 零樣本實(shí)例分割結(jié)果

3.2 定性結(jié)果實(shí)驗(yàn)

為了探究基元是否可以代表細(xì)微的細(xì)節(jié)元素,圖5可視化不同基元在圖片上的注意力響應(yīng)。結(jié)果表明基元可以代表不同細(xì)粒度的屬性,例如在圖中的貓作為例子:關(guān)注到了耳朵、尾巴以及輪廓。

aca2f71c-1371-11ee-962d-dac502259ad0.png

圖5: 基元注意力響應(yīng)圖

為了研究本文合成的未見特征的屬性,并展示本章提出的方法的有效性,圖6使用 t-SNE來展示合成的未知特征的分布情況。(a)由 GMMN 生成器生成的合成特征由于語義-視覺差異而雜亂無序。(b)引入了本文的基元生成器,同一類別的特征變得更加緊密,不同類別的特征則高度可分。此外,在語義相關(guān)特征上應(yīng)用關(guān)系對齊約束后,(c),不同類別的特征相距更遠(yuǎn),分布結(jié)構(gòu)更好,這表明結(jié)構(gòu)關(guān)系已經(jīng)嵌入到合成的特征中,合成的未見特征大大增強(qiáng)了較好的區(qū)分性。

acbab474-1371-11ee-962d-dac502259ad0.png

圖6: 不同生成器生成未知類別特征分布圖

圖7定性可視化了零樣本通用分割結(jié)果的例子,結(jié)果表明我們的方法可以取得很好的效果。

acd6b37c-1371-11ee-962d-dac502259ad0.png

圖7: 零樣本通用分割(全景、實(shí)例、語義分割)可視化結(jié)果

4. 總結(jié)

本文針對零樣本通用分割中存在的視覺與語言差異以及類別偏見問題,提出了基元生成、協(xié)作關(guān)系對齊與特征解耦學(xué)習(xí)的統(tǒng)一框架(PADing),以實(shí)現(xiàn)高效、實(shí)用的零樣本通用分割。首先,提出了基元生成器,用于合成未知類別的偽訓(xùn)練特征。接著,提出了協(xié)作的特征解耦和關(guān)系對齊學(xué)習(xí)策略,幫助生成器產(chǎn)生更好的偽未知特征,前者將視覺特征解耦為語義相關(guān)部分和語義不相關(guān)部分,后者將跨類知識從語義空間傳輸?shù)揭曈X空間。PADing在三個(gè)零樣本分割任務(wù),包括語義、實(shí)例和全景分割上進(jìn)行的廣泛實(shí)驗(yàn),都取得了最先進(jìn)的結(jié)果。
責(zé)任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3243

    瀏覽量

    48840
  • 生成器
    +關(guān)注

    關(guān)注

    7

    文章

    315

    瀏覽量

    21011
  • 分割
    +關(guān)注

    關(guān)注

    0

    文章

    17

    瀏覽量

    11897

原文標(biāo)題:CVPR 2023 | 浙大&南洋理工提出PADing:零樣本通用分割框架

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    通過任務(wù)分割提高嵌入式系統(tǒng)的實(shí)時(shí)性

    分析長任務(wù)對嵌入式系統(tǒng)實(shí)時(shí)性的影響,在此基礎(chǔ)上提出任務(wù)分割是提高嵌入式系統(tǒng)實(shí)時(shí)性的一種有效途徑; 總結(jié)長任務(wù)分割的方法, 給出一個(gè)通過
    發(fā)表于 05-15 15:07 ?4次下載

    基于多級混合模型的圖像分割方法

    本文研究了典型的基于區(qū)域的圖像分割方法主動(dòng)形狀模型(Active Shape Model, ASM)和基于邊緣的圖像分割snake 算法,分析了算法適用條件和各自的優(yōu)缺點(diǎn)。結(jié)合snake 模型
    發(fā)表于 07-08 09:58 ?20次下載

    基于改進(jìn)活動(dòng)輪廓模型的圖像分割

    基于改進(jìn)活動(dòng)輪廓模型的圖像分割_王芳
    發(fā)表于 01-07 19:00 ?0次下載

    基于模型球型分割的信息隱藏算法

    對于基于模型信息隱藏算法在幾何攻擊中魯棒性差的問題,提出一種基于模型球型分割的信息隱藏算法。首先,利用主元分析、球面坐標(biāo)轉(zhuǎn)換、球型
    發(fā)表于 11-28 11:10 ?0次下載

    聚焦語義分割任務(wù),如何用卷積神經(jīng)網(wǎng)絡(luò)處理語義圖像分割?

    CNN架構(gòu)圖像語義分割 圖像分割是根據(jù)圖像內(nèi)容對指定區(qū)域進(jìn)行標(biāo)記的計(jì)算機(jī)視覺任務(wù),簡言之就是「這張圖片里有什么,其在圖片中的位置是什么?」本文聚焦于語義分割
    發(fā)表于 09-17 15:21 ?568次閱讀

    基于預(yù)測算法實(shí)現(xiàn)模型的最優(yōu)在線任務(wù)分配

    根據(jù)空間眾包任務(wù)類型的多樣化特點(diǎn),構(gòu)建空間眾包任務(wù)分配模型并提出基于預(yù)測算法的在線仼務(wù)分配策略。在批處理模式下,將最大分數(shù)任務(wù)分配問題轉(zhuǎn)化為
    發(fā)表于 03-22 11:47 ?26次下載
    基于預(yù)測算法實(shí)現(xiàn)<b class='flag-5'>模型</b>的最優(yōu)在線<b class='flag-5'>任務(wù)</b>分配

    通用航空器運(yùn)行排班及維修任務(wù)的優(yōu)化模型

    控制目標(biāo),文中分析了通用航空器作業(yè)的運(yùn)行與維修計(jì)劃特性,結(jié)合通航運(yùn)行控制與調(diào)度的實(shí)際經(jīng)驗(yàn)和工作流程等強(qiáng)約束條件,提岀了兼容運(yùn)行排班與安全保障的公平性及均勻性策略,建立了通用航空器運(yùn)行排班及維修任務(wù)的優(yōu)仳
    發(fā)表于 04-22 15:36 ?6次下載
    <b class='flag-5'>通用</b>航空器運(yùn)行排班及維修<b class='flag-5'>任務(wù)</b>的優(yōu)化<b class='flag-5'>模型</b>

    基于遙感數(shù)據(jù)的海島邊界快速分割模型

    基于遙感數(shù)據(jù)的海島邊界快速分割模型
    發(fā)表于 06-11 15:32 ?4次下載

    在NGC上玩轉(zhuǎn)圖像分割!NeurIPS頂會模型、智能標(biāo)注10倍速神器、人像分割SOTA方案、3D醫(yī)療影像分割利器應(yīng)有盡有

    ! 圖像分割是計(jì)算機(jī)視覺任務(wù)之一,基于深度學(xué)習(xí)的圖像分割技術(shù)也發(fā)揮日益重要的作用,廣泛應(yīng)用于工業(yè)質(zhì)檢、自動(dòng)駕駛、遙感
    的頭像 發(fā)表于 11-21 21:05 ?1084次閱讀

    通用視覺GPT時(shí)刻來臨?智源推出通用分割模型SegGPT

    無論是 “一觸即通” 還是 “一通百通”,都意味著視覺模型已經(jīng) “理解” 了圖像結(jié)構(gòu)。SAM 精細(xì)標(biāo)注能力與 SegGPT 的通用分割標(biāo)注能力相結(jié)合,能把任意圖像從像素陣列解析為視覺結(jié)構(gòu)單元,像生物視覺那樣理解任意場景,
    的頭像 發(fā)表于 04-09 09:40 ?1436次閱讀

    SAM分割模型是什么?

    SAM是一類處理圖像分割任務(wù)通用模型。與以往只能處理某種特定類型圖片的圖像分割模型不同,SAM
    的頭像 發(fā)表于 05-20 09:30 ?2253次閱讀

    近期分割模型發(fā)展情況

    SAM(Segment Anything Model)Meta 的 FAIR 實(shí)驗(yàn)室發(fā)布的一種最先進(jìn)的圖像分割模型,該模型將自然語言處理領(lǐng)域的prompt范式引入計(jì)算機(jī)視覺領(lǐng)域,可以通過點(diǎn)擊、框選和自動(dòng)識別
    的頭像 發(fā)表于 05-22 16:26 ?878次閱讀
    近期<b class='flag-5'>分割</b>大<b class='flag-5'>模型</b>發(fā)展情況

    中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!

    通過將分割?切任務(wù)重新劃分為全實(shí)例分割和提?指導(dǎo)選擇兩個(gè)?任務(wù),?帶實(shí)例分割分?的常規(guī) CNN 檢測器以?出50倍的運(yùn)?速度實(shí)現(xiàn)了與SAM?
    的頭像 發(fā)表于 06-28 14:33 ?1698次閱讀
    中科院提出FastSAM快速<b class='flag-5'>分割</b>一切<b class='flag-5'>模型</b>!比Meta原版提速50倍!

    項(xiàng)SOTA!MasQCLIP:開放詞匯通用圖像分割新網(wǎng)絡(luò)

    MasQCLIP在開放詞匯實(shí)例分割、語義分割和全景分割項(xiàng)任務(wù)上均實(shí)現(xiàn)了SOTA,漲點(diǎn)非常明顯。這里也推薦工坊推出的新課程《徹底搞懂視覺-慣
    的頭像 發(fā)表于 12-12 11:23 ?822次閱讀
    <b class='flag-5'>三</b>項(xiàng)SOTA!MasQCLIP:開放詞匯<b class='flag-5'>通用</b>圖像<b class='flag-5'>分割</b>新網(wǎng)絡(luò)

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計(jì)算機(jī)視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心模型,在圖像
    的頭像 發(fā)表于 07-09 11:51 ?901次閱讀