1. 研究動(dòng)機(jī)
圖像分割旨在將具有不同語義的像素進(jìn)行分類進(jìn)而分組,例如類別或?qū)嵗陙砣〉蔑w速的發(fā)展。然而,由于深度學(xué)習(xí)方法是數(shù)據(jù)驅(qū)動(dòng)的,對大規(guī)模標(biāo)記訓(xùn)練樣本的強(qiáng)烈需求導(dǎo)致了巨大的挑戰(zhàn),這些訓(xùn)練數(shù)據(jù)需要消耗巨大的時(shí)間以及人力成本。為處理上述難題,零樣本學(xué)習(xí)(Zero-Shot Learning,ZSL)被提出用于分類沒有訓(xùn)練樣本的新對象,并擴(kuò)展到分割任務(wù)中,例如零樣本語義分割(Zero-Shot Semantic Segmentation, ZSS)和零樣本實(shí)例分割(Zero-Shot Instance Segmentation, ZSI)。在此基礎(chǔ)上,本文進(jìn)一步引入零樣本全景分割(Zero-Shot Panoptic Segmentation, ZSP)并旨在利用語義知識構(gòu)建一個(gè)通用的零樣本全景/語義/實(shí)例分割框架,如圖1所示。
本文從為未知類別生成更好的偽特征出發(fā)來設(shè)計(jì)一個(gè)通用的模型PADing解決三大分割任務(wù)。針對通用分割存在的共性問題:視覺與語言差異以及類別偏見問題,旨在實(shí)現(xiàn)對于新類別的全景、實(shí)例和語義分割。本文基于零樣本通用分割方法PADing開展定量實(shí)驗(yàn)和定性可視化,研究結(jié)果表明,相對于主流方法,該方法在定量實(shí)驗(yàn)結(jié)果和定性可視化結(jié)果方面表現(xiàn)出色。
本文貢獻(xiàn)主要包括以下四點(diǎn):
研究了通用的零樣本分割問題,并提出了一種名為基于協(xié)作關(guān)系對齊和特征解耦學(xué)習(xí)的基元生成(Primitive generation with collaborative relationship Alignment and feature Disentanglement learning,PADing)的統(tǒng)一框架來處理零樣本語義分割、實(shí)例分割和全景分割問題。
提出了一種基元生成器,它使用許多帶有細(xì)粒度屬性的學(xué)習(xí)基元來合成未見過類別的視覺特征,有助于解決偏差問題和域間差距問題。
提出了一種協(xié)作關(guān)系對齊和特征解耦學(xué)習(xí)方法,以促進(jìn)生成器產(chǎn)生更好的合成特征。
提出的方法PADing在零樣本全景分割(ZSP)、零樣本實(shí)例分割(ZSI)和零樣本語義分割(ZSS)上取得了新的最先進(jìn)性能。
2. 方法
2.1 方法概述
本文提出的方法基于協(xié)作關(guān)系對齊和特征解耦學(xué)習(xí)的基元生成PADing,其總體架構(gòu)如圖2所示。首先,Backbone預(yù)測了一組與類無關(guān)的掩碼及其相應(yīng)的類向量。接著,基元生成器經(jīng)過訓(xùn)練,可以從語義向量中合成類向量。然后,將真實(shí)的與合成類向量被分解為與語義相關(guān)和與語義無關(guān)的特征,并在語義相關(guān)的特征上進(jìn)行關(guān)系對齊學(xué)習(xí)。最后,通過合成未知類別的向量,用實(shí)際已知類別的真實(shí)向量和未知類別的合成向量進(jìn)行重新微調(diào)訓(xùn)練分類器。
圖2: PADing框架結(jié)構(gòu)圖
2.2 基元跨模態(tài)生成
由于缺乏未知類別的樣本,分類器不能使用未知類別的特征進(jìn)行優(yōu)化。因此,僅使用已知類別的特征進(jìn)行訓(xùn)練的分類器往往會將所有對象標(biāo)記為已知類別,這稱為偏置問題。先前的方法提出利用生成模型來為未知類別合成假的視覺特征。雖然達(dá)到了良好的性能,但并未考慮特征粒度的視覺-語義差異。眾所周知,圖像通常包含比語言更豐富的信息。視覺信息提供了對象的非常精細(xì)的屬性,而文本信息通常提供抽象和高級別的屬性。這種差異導(dǎo)致了視覺特征和語義特征之間的不一致。為了解決這一挑戰(zhàn),本文提出了一個(gè)基于基元的跨模態(tài)生成器,利用大量學(xué)習(xí)到的屬性基元來構(gòu)建視覺表示。
先初始化一堆可學(xué)習(xí)的基元,希望它能學(xué)習(xí)到細(xì)粒度的信息,具體的方法是利用Transformer將語義向量和基元組都輸入到網(wǎng)絡(luò)中,首先語義向量先與基元組計(jì)算相似度,選擇其與語義向量最為相關(guān)型的基元后并加入高斯噪聲。這樣就得到由基元組成的特征,當(dāng)輸入一個(gè)語義向量,能輸出生成相應(yīng)的視覺向量。最后用MMD損失來拉近這兩個(gè)生成與真實(shí)的視覺向量特征?;拖袷钦Z言與視覺之間的橋梁,消除兩者之間的域內(nèi)差異。
圖3: 基元跨模態(tài)生成的結(jié)構(gòu)示意圖
2.3 語義-視覺關(guān)系對齊
眾所周知,類別之間的關(guān)系自然上是不同的。例如,有三個(gè)對象:蘋果、橙子和奶牛。顯然,蘋果和橙子之間的關(guān)系比蘋果和奶牛之間的關(guān)系更緊密。語義空間中的類別關(guān)系是強(qiáng)大的先驗(yàn)知識,而類別特定的特征生成并沒有明確利用這種關(guān)系。也就是語義空間中關(guān)系相近的物體,在視覺空間也應(yīng)該相近,具有相似的分布。但通常的方法一般直接將語義空間的關(guān)系暴力地遷移到視覺空間中。這樣并不能有效的利用語義關(guān)系,因?yàn)檎Z義和視覺本來就不是相互對齊的空間,視覺特征包含更多信息,而語義特征可以看作是信息的濃縮。也就是視覺特征中多了多余的信息。所以本文考慮到了將視覺特征進(jìn)行解耦之后再進(jìn)行關(guān)系對齊。解耦的方法也就是分成了語義相關(guān)特征與語義無關(guān)特征,然后將視覺的語義相關(guān)特征再與語義特征對齊。語義無關(guān)特征希望其符合正態(tài)分布刻畫著沒有具體語義信息的特征。而語義相關(guān)特征需要其能通過特征將其分到指定語義信息中。
圖4: 語義-視覺關(guān)系對齊示意圖
3. 實(shí)驗(yàn)
3.1 定量結(jié)果實(shí)驗(yàn)
為了驗(yàn)證本文方法的有效性,在COCO數(shù)據(jù)上針對全景分割、實(shí)例分割、語義分割上進(jìn)行了對比實(shí)驗(yàn),見表1、2、3。實(shí)驗(yàn)結(jié)果表明,本文方法PADing取得先進(jìn)的性能。
表1: 零樣本全景分割結(jié)果
表2: 零樣本語義分割結(jié)果
表1: 零樣本實(shí)例分割結(jié)果
3.2 定性結(jié)果實(shí)驗(yàn)
為了探究基元是否可以代表細(xì)微的細(xì)節(jié)元素,圖5可視化不同基元在圖片上的注意力響應(yīng)。結(jié)果表明基元可以代表不同細(xì)粒度的屬性,例如在圖中的貓作為例子:關(guān)注到了耳朵、尾巴以及輪廓。
圖5: 基元注意力響應(yīng)圖
為了研究本文合成的未見特征的屬性,并展示本章提出的方法的有效性,圖6使用 t-SNE來展示合成的未知特征的分布情況。(a)由 GMMN 生成器生成的合成特征由于語義-視覺差異而雜亂無序。(b)引入了本文的基元生成器,同一類別的特征變得更加緊密,不同類別的特征則高度可分。此外,在語義相關(guān)特征上應(yīng)用關(guān)系對齊約束后,(c),不同類別的特征相距更遠(yuǎn),分布結(jié)構(gòu)更好,這表明結(jié)構(gòu)關(guān)系已經(jīng)嵌入到合成的特征中,合成的未見特征大大增強(qiáng)了較好的區(qū)分性。
圖6: 不同生成器生成未知類別特征分布圖
圖7定性可視化了零樣本通用分割結(jié)果的例子,結(jié)果表明我們的方法可以取得很好的效果。
圖7: 零樣本通用分割(全景、實(shí)例、語義分割)可視化結(jié)果
4. 總結(jié)
本文針對零樣本通用分割中存在的視覺與語言差異以及類別偏見問題,提出了基元生成、協(xié)作關(guān)系對齊與特征解耦學(xué)習(xí)的統(tǒng)一框架(PADing),以實(shí)現(xiàn)高效、實(shí)用的零樣本通用分割。首先,提出了基元生成器,用于合成未知類別的偽訓(xùn)練特征。接著,提出了協(xié)作的特征解耦和關(guān)系對齊學(xué)習(xí)策略,幫助生成器產(chǎn)生更好的偽未知特征,前者將視覺特征解耦為語義相關(guān)部分和語義不相關(guān)部分,后者將跨類知識從語義空間傳輸?shù)揭曈X空間。PADing在三個(gè)零樣本分割任務(wù),包括語義、實(shí)例和全景分割上進(jìn)行的廣泛實(shí)驗(yàn),都取得了最先進(jìn)的結(jié)果。
責(zé)任編輯:彭菁
-
模型
+關(guān)注
關(guān)注
1文章
3243瀏覽量
48840 -
生成器
+關(guān)注
關(guān)注
7文章
315瀏覽量
21011 -
分割
+關(guān)注
關(guān)注
0文章
17瀏覽量
11897
原文標(biāo)題:CVPR 2023 | 浙大&南洋理工提出PADing:零樣本通用分割框架
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論