在本文中,來自曠視科技、南京大學(xué)和早稻田大學(xué)的研究者對(duì)基于深度學(xué)習(xí)的細(xì)粒度圖像分析進(jìn)行了綜述,從細(xì)粒度圖像識(shí)別、檢索和生成三個(gè)方向展開論述。此外,他們還對(duì)該領(lǐng)域未來的發(fā)展方向進(jìn)行了討論。
計(jì)算機(jī)視覺(CV)是用機(jī)器來理解和分析圖像的過程,是人工智能中一個(gè)重要分支。在 CV 的各個(gè)研究領(lǐng)域中,細(xì)粒度圖像分析(fine-grained image analysis, FGIA)是一個(gè)長(zhǎng)期存在的基礎(chǔ)性問題,而且在各種實(shí)際應(yīng)用(比如鳥的種類、汽車模型、商品識(shí)別等)中無處不在。由細(xì)粒度特性造成的類間(inter-class)小變化和類內(nèi)(intra-class)大變化使得這一問題具有極大的挑戰(zhàn)性。由于深度學(xué)習(xí)的蓬勃發(fā)展,近年來應(yīng)用了深度學(xué)習(xí)的 FGIA 取得了顯著的進(jìn)步。
本文系統(tǒng)地對(duì)基于深度學(xué)習(xí)的 FGIA 技術(shù)進(jìn)行了綜述。具體來說,本文將針對(duì) FGIA 技術(shù)的研究分為三大類:細(xì)粒度圖像識(shí)別、細(xì)粒度圖像檢索和細(xì)粒度圖像生成。本文還討論了其他 FGIA 的重要問題,比如公開可用的基準(zhǔn)數(shù)據(jù)集及其在相關(guān)領(lǐng)域的特定應(yīng)用。本文在結(jié)尾處強(qiáng)調(diào)了未來仍需進(jìn)一步探討的幾個(gè)方向以及待解決的問題。
綜述結(jié)構(gòu)。
在環(huán)太平洋國(guó)家舉辦的另一個(gè)重要的 AI 會(huì)議中,本文作者(魏秀參、吳建鑫)針對(duì)細(xì)粒度圖像分析組織了具體的教程。該教程中提供了一些關(guān)于細(xì)粒度圖像分析的額外的細(xì)節(jié)信息,所以在此向想深入了解的讀者推薦該教程。
此外,論文作者還開放了一個(gè)細(xì)粒度圖像分析的主頁(yè),內(nèi)含代表性論文、代碼、數(shù)據(jù)集等。
背景:FGIA 中的主要問題和挑戰(zhàn)
FGIA 與一般的圖像分析之間的區(qū)別在于:在一般的圖像分析中,目標(biāo)對(duì)象屬于粗粒度的元類別(例如:鳥、橙子和狗),因此它們看起來非常不同。但在 FGIA 中,由于對(duì)象都屬于一個(gè)元類別的子類,細(xì)粒度的特性導(dǎo)致它們看起來非常相似。我們以圖像識(shí)別為例。如圖 1 所示。
圖 1:細(xì)粒度圖像分析(右)與一般的圖像分析(左)
此外,細(xì)粒度特性也會(huì)導(dǎo)致由子類別高度相似而造成的類間變化較小以及因姿勢(shì)、尺寸和角度等不同而造成的類內(nèi)變化大的問題,如圖 3 所示。
圖 3:細(xì)粒度圖像分析的關(guān)鍵挑戰(zhàn)
基準(zhǔn)數(shù)據(jù)集
表 1:主流細(xì)粒度圖像數(shù)據(jù)集匯總
表 1 中列出了細(xì)粒度問題中常用的圖像數(shù)據(jù)集,并特地標(biāo)出了它們的元類別、細(xì)粒度圖像的數(shù)量、細(xì)粒度類別的數(shù)量和額外可用的不同種類的監(jiān)督(即邊界框、部位注釋、層次標(biāo)簽、屬性標(biāo)簽以及文本視覺描述等),參見圖 5。
圖 5:帶有 CUB200-2011 監(jiān)督信息的示例圖像
細(xì)粒度圖像識(shí)別
這些細(xì)粒度識(shí)別方法可以總結(jié)為三個(gè)范式:(1)用定位分類子網(wǎng)絡(luò)進(jìn)行細(xì)粒度識(shí)別;(2)用端到端的特征編碼進(jìn)行細(xì)粒度識(shí)別;(3)用外部信息進(jìn)行細(xì)粒度識(shí)別。
其中,第一個(gè)范式和第二個(gè)范式只用和細(xì)粒度圖像相關(guān)的監(jiān)督(比如圖像標(biāo)簽、邊界框以及部分注釋等)進(jìn)行了限制。此外,由于細(xì)粒度存在的挑戰(zhàn),自動(dòng)識(shí)別系統(tǒng)還不能實(shí)現(xiàn)良好的性能。因此,研究人員逐漸試著在細(xì)粒度識(shí)別問題中融入外部但易于獲得的信息(比如網(wǎng)頁(yè)數(shù)據(jù)、文本描述等)來進(jìn)一步提升準(zhǔn)確率,這對(duì)應(yīng)了細(xì)粒度識(shí)別的第三個(gè)范式。細(xì)粒度識(shí)別中常用的評(píng)估指標(biāo)是數(shù)據(jù)集所有從屬類別的平均分類準(zhǔn)確率。
4.1 用定位分類子網(wǎng)絡(luò)進(jìn)行細(xì)粒度識(shí)別
為了緩解類內(nèi)變化較大的問題,細(xì)粒度社區(qū)注重捕獲細(xì)粒度對(duì)象具有辨別性的語(yǔ)義部分,然后再建立和這些語(yǔ)義部分相關(guān)的中級(jí)表征用于最后的分類。具體而言,研究人員為了定位這些關(guān)鍵部位,設(shè)計(jì)出了定位子網(wǎng)絡(luò)。之后再連接一個(gè)用于識(shí)別的分類子網(wǎng)絡(luò)。這兩個(gè)子網(wǎng)絡(luò)合作組成的框架就是第一個(gè)范式,也就是用定位分類子網(wǎng)絡(luò)進(jìn)行細(xì)粒度識(shí)別。
有了定位信息(比如部位邊界框或分割掩碼),就可以獲得更有辨別力的中級(jí)(部位)表征。此外,它還進(jìn)一步提高了分類子網(wǎng)絡(luò)的學(xué)習(xí)能力,這可以顯著增強(qiáng)最終識(shí)別的準(zhǔn)確率。
屬于這一范式的早期工作依賴于額外的密集部位注釋(又稱關(guān)鍵點(diǎn)定位)來定位目標(biāo)的語(yǔ)義關(guān)鍵部位(例如頭部、軀干)。它們中的一些學(xué)習(xí)了基于部位的檢測(cè)器 [Zhang et al.,2014;Lin et al.,2015a],還有一些利用分割方法來定位部位。然后,這些方法將多個(gè)部位特征當(dāng)做整個(gè)圖像的表征,并將其饋送到接下來的分類子網(wǎng)絡(luò)中進(jìn)行最終的識(shí)別。因此,這些方法也稱為基于部位的識(shí)別方法。
但這樣的密集部位注釋是勞動(dòng)密集型工作,限制了細(xì)粒度應(yīng)用在現(xiàn)實(shí)世界中的可擴(kuò)展性和實(shí)用性。最近還出現(xiàn)了一種趨勢(shì),在這種范式下,更多只需要圖像標(biāo)簽 [Jaderberg et al.,2015;Fu et al.,2017;Zheng et al.,2017;Sun et al.,2018] 就可以準(zhǔn)確定位這些部位的技術(shù)出現(xiàn)了。它們共同的思路是先找到相對(duì)應(yīng)的部位,然后再比較它們的外觀。具體而言,我們希望能捕獲到在細(xì)粒度類別中共享的語(yǔ)義部位(比如頭部和軀干),同時(shí)還希望發(fā)現(xiàn)這些部位表征之間的微小差別。像注意力機(jī)制 [Yang et al.,2018] 和多階段策略 [He 和 Peng,2017b] 這樣的先進(jìn)技術(shù)可以對(duì)集成的定位分類子網(wǎng)絡(luò)進(jìn)行復(fù)雜的聯(lián)合訓(xùn)練。
4.2 用端到端的特征編碼進(jìn)行細(xì)粒度識(shí)別
和第一個(gè)范式不同,第二個(gè)范式是端到端特征編碼,它是通過開發(fā)用于細(xì)粒度識(shí)別的強(qiáng)大深度模型來直接學(xué)習(xí)更具辨別力的表征實(shí)現(xiàn)的。這些方法中最具代表性的方法是雙線性 CNN(Bilinear CNNs[Lin et al.,2015b]),它用來自兩個(gè)深度 CNN 池化后的特征的外積來表征圖像,從而對(duì)卷積激活的高階統(tǒng)計(jì)量進(jìn)行編碼,以增強(qiáng)中級(jí)學(xué)習(xí)能力。由于其模型容量較高,雙線性 CNN 在細(xì)粒度識(shí)別中實(shí)現(xiàn)了優(yōu)良的性能。但雙線性特征的維度極高,因此它無法在現(xiàn)實(shí)世界中應(yīng)用,尤其是大規(guī)模應(yīng)用。
最近也有一些嘗試解決這一問題的工作,比如 [Gao et al.,2016;Kong 和 Fowlkes,2017;Cui et al.,2017],[Pham 和 Pagh,2013;Charikar et al.,2002] 試著用張量草圖(tensor sketching)來聚合低維嵌入,該方法可以近似雙線性特征,還可以保持相當(dāng)程度或更高的準(zhǔn)確率。其他工作,比如 [Dubey et al.,2018] 則專門為細(xì)粒度量身設(shè)計(jì)了特定的損失函數(shù),它可以驅(qū)動(dòng)整個(gè)深度模型學(xué)習(xí)具有辨別性的細(xì)粒度表征。
4.3 用外部信息進(jìn)行細(xì)粒度識(shí)別
如前文所述,除了傳統(tǒng)的識(shí)別范式外,另一種范式是利用外部信息(比如網(wǎng)絡(luò)數(shù)據(jù)、多模態(tài)數(shù)據(jù)或人機(jī)交互)來進(jìn)一步幫助細(xì)粒度識(shí)別。詳細(xì)內(nèi)容參見論文。
細(xì)粒度圖像檢索
除了圖像識(shí)別,細(xì)粒度檢索是 FGIA 的另一個(gè)重要方面,它也是當(dāng)前的研究熱點(diǎn)。在細(xì)粒度檢索中,常用的評(píng)估指標(biāo)是平均精度均值(mean average precision,mAP)。在細(xì)粒度圖像檢索中,給出同一個(gè)子類(比如鳥類或車類)的數(shù)據(jù)庫(kù)圖像和要查詢的圖像,它可以在不依賴任何其他監(jiān)督信號(hào)的情況下,返回與查詢圖像屬于同一類別的圖像,如圖 7 所示。
圖 7:細(xì)粒度檢索圖示。
一般的圖像檢索是基于圖像內(nèi)容(比如紋理、顏色和形狀)的相似性來檢索非常相似的圖像,而細(xì)粒度檢索則側(cè)重于檢索屬于同一類別(比如同一物種的生物或一種車型)的圖像。同時(shí),細(xì)粒度圖像中目標(biāo)的差別很小,而在姿勢(shì)、尺寸以及角度等方面存在差異。
[Wei et al.,2017] 首次試著用深度學(xué)習(xí)進(jìn)行細(xì)粒度圖像檢索。該模型用預(yù)訓(xùn)練的 CNN 模型,在無監(jiān)督的情況下,通過在細(xì)粒度圖像中定位主要目標(biāo)選出了有意義的深度描述符,進(jìn)一步揭示了只用去除背景或噪聲的深度描述符可以顯著提高檢索任務(wù)的性能。為了打破通過預(yù)訓(xùn)練模型進(jìn)行無監(jiān)督細(xì)粒度檢索的局限性,一些實(shí)驗(yàn) [Zheng et al.,2018;Zheng et al.,2019] 傾向于在有監(jiān)督指標(biāo)學(xué)習(xí)范式下,研究出全新的損失函數(shù)。與此同時(shí),他們還為細(xì)粒度目標(biāo)量身設(shè)計(jì)了額外的特定子模塊,例如,[Zheng et al.,2018] 受 [Wei et al.,2017] 啟發(fā)后提出的弱監(jiān)督定位模塊。
細(xì)粒度圖像生成
除了監(jiān)督學(xué)習(xí)任務(wù),圖像生成也是無監(jiān)督學(xué)習(xí)中的代表性主題。它用像 GAN[Goodfellow et al.,2014] 這樣的深度生成模型來學(xué)習(xí)合成看起來很真實(shí)的逼真圖像。隨著生成圖像的質(zhì)量越來越高,更具挑戰(zhàn)性的任務(wù)——細(xì)粒度圖像生成,出現(xiàn)了。顧名思義,細(xì)粒度生成可以在細(xì)粒度類別(比如特定人物的面部或從屬類別中的對(duì)象)中合成圖像。
這方面的第一項(xiàng)工作是 [Bao et al.,2017] 提出的 CVAE-GAN,它將變分自編碼器和條件生成過程下的生成對(duì)抗網(wǎng)絡(luò)結(jié)合在一起,來解決這一問題。具體而言,CVAE-GAN 將圖像建模成概率模型中的標(biāo)簽和隱含屬性的組合。通過改變饋入生成模型的細(xì)粒度類別,它就可以生成特定類別的圖像。最近,根據(jù)文本描述生成圖像 [Xu et al.,2018b] 因其多樣化和實(shí)用性(如藝術(shù)生成和計(jì)算機(jī)輔助設(shè)計(jì))而流行起來。執(zhí)行配備了注意力的生成網(wǎng)絡(luò)后,模型可以根據(jù)文本描述中的相關(guān)細(xì)節(jié)來合成細(xì)微區(qū)域的細(xì)粒度細(xì)節(jié)。
與細(xì)粒度圖像分析相關(guān)領(lǐng)域的特定應(yīng)用
在真實(shí)世界中,基于深度學(xué)習(xí)的細(xì)粒度圖像分析技術(shù)在不同領(lǐng)域中都得到了應(yīng)用,并表現(xiàn)出了很好的性能,例如在推薦系統(tǒng)中檢索衣服或鞋 [Song et al.,2017],在電子商務(wù)平臺(tái)上識(shí)別時(shí)尚圖像 [Wei et al.,2016] 以及在智能零售平臺(tái)中識(shí)別產(chǎn)品 [Wei et al.,2019a] 等。這些應(yīng)用都和 FGIA 的細(xì)粒度檢索與識(shí)別高度相關(guān)。
此外,如果我們向下移動(dòng)粒度范圍,極端點(diǎn)說,也可以將人臉識(shí)別看作細(xì)粒度識(shí)別的實(shí)例,在這個(gè)例子中粒度降到了身份粒度級(jí)別之下。此外,人員或機(jī)動(dòng)車的再識(shí)別也是細(xì)粒度的一項(xiàng)相關(guān)任務(wù),這項(xiàng)任務(wù)的目標(biāo)是確定兩張圖像是否屬于同一個(gè)特定的人或機(jī)動(dòng)車。顯然,再識(shí)別任務(wù)的粒度等級(jí)也在身份粒度之下。
在實(shí)際應(yīng)用中,這些工作都遵循了 FGIA 的思路,來解決相關(guān)領(lǐng)域的特定任務(wù),F(xiàn)GIA 的思路包括捕獲目標(biāo)極具辨別性的部位(人臉、人和機(jī)動(dòng)車)[Suh et al.,2018]、發(fā)現(xiàn)由粗到細(xì)的結(jié)構(gòu)信息 [Wei et al.,2018b] 以及開發(fā)基于屬性的模型 [Liu et al.,2016] 等等。
未來的方向
在這一部分,研究者明確指出了 FGIA 相關(guān)領(lǐng)域中尚未解決的問題,以及一些未來的研究趨勢(shì)。
自動(dòng)細(xì)粒度模型
AutoML 和 NAS 的最新方法在計(jì)算機(jī)視覺的各種應(yīng)用中都取得了和手工設(shè)計(jì)架構(gòu)相媲美、甚至更好的結(jié)果。因此,希望可以利用 AutoML 或 NAS 技術(shù)開發(fā)自動(dòng)細(xì)粒度模型,有望找到更好、更合適的深度模型,同時(shí)也可以反向促進(jìn) AutoML 和 NAS 研究的進(jìn)步。
細(xì)粒度 few-shot 學(xué)習(xí)
我們最好的深度學(xué)習(xí)細(xì)粒度系統(tǒng)需要成百上千個(gè)標(biāo)記好的樣本。更糟的是,細(xì)粒度圖像的監(jiān)督不僅耗時(shí)而且昂貴,因?yàn)榧?xì)粒度目標(biāo)是由該領(lǐng)域的專家做準(zhǔn)確標(biāo)記的。因此,現(xiàn)實(shí)應(yīng)用迫切需要開發(fā)出基于小樣本的細(xì)粒度學(xué)習(xí)方法(fine-grained few-shot,F(xiàn)GFS)[Wei et al.,2019b]。FGFS 任務(wù)需要學(xué)習(xí)系統(tǒng)以元學(xué)習(xí)的方式,根據(jù)少量(只有一個(gè)或少于五個(gè))樣本構(gòu)建針對(duì)全新細(xì)粒度類別的分類器。魯棒的 FGFS 方法可以很大程度上地增強(qiáng)細(xì)粒度識(shí)別的可用性和可擴(kuò)展性。
細(xì)粒度哈希
在像細(xì)粒度圖像檢索這樣的實(shí)際應(yīng)用中,會(huì)自然地出現(xiàn)這樣的問題——在參考數(shù)據(jù)非常大的情況下,找到準(zhǔn)確的最近鄰的成本是非常高的。哈希 [Wang et al.,2018;Li et al.,2016] 是近似最近鄰搜索中最流行也最有效的技術(shù)之一,它有處理大量細(xì)粒度數(shù)據(jù)的潛力。因此,細(xì)粒度哈希是 FGIA 中值得進(jìn)一步探索的方向。
在更實(shí)際的環(huán)境中進(jìn)行細(xì)粒度分析
細(xì)粒度圖像分析還有許多新穎的主題——用域自適應(yīng)進(jìn)行細(xì)粒度分析、用知識(shí)遷移進(jìn)行細(xì)粒度分析、用長(zhǎng)尾分布進(jìn)行細(xì)粒度分析以及在資源受限的嵌入設(shè)備上運(yùn)行細(xì)粒度分析等。這些更高級(jí)也更實(shí)際的 FGIA 都很值得進(jìn)行大量的研究工作。
-
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121340 -
曠視科技
+關(guān)注
關(guān)注
1文章
153瀏覽量
11200
原文標(biāo)題:超全深度學(xué)習(xí)細(xì)粒度圖像分析:項(xiàng)目、綜述、教程一網(wǎng)打盡
文章出處:【微信號(hào):AI_shequ,微信公眾號(hào):人工智能愛好者社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論