近日,北京理工大學(xué)、曠視科技、北京大學(xué)聯(lián)手,發(fā)表了一篇名為 Pyramid Attention Network for Semantic Segmentation 的論文。在這篇論文中,四位研究者提出了一種金字塔注意力網(wǎng)絡(luò)(Pyramid Attention Network,PAN),利用圖像全局的上下文信息來(lái)解決語(yǔ)義分割問(wèn)題。
與大多數(shù)現(xiàn)有研究利用復(fù)雜的擴(kuò)張卷積 (dilated convolution) 并人為地設(shè)計(jì)解碼器網(wǎng)絡(luò)不同的是,論文作者將注意力機(jī)制和空間金字塔(spatial pyramid)相結(jié)合,來(lái)提取準(zhǔn)確而密集的特征并獲取像素標(biāo)簽。
具體來(lái)說(shuō),他們引入了一個(gè)特征金字塔注意力模塊 (Feature Pyramid Attention module),在高層的輸出上施加空間金字塔注意力結(jié)構(gòu),并結(jié)合全局池化策略來(lái)學(xué)習(xí)更好的特征表征。此外,利用每個(gè)解碼器層中的全局注意力上采樣模塊 (Global Attention Upsample module) 得到的全局上下文特征信息,作為低級(jí)別特征的指導(dǎo),以此來(lái)篩選不同類別的定位細(xì)節(jié)。
論文作者表示,他們提出的方法在 PASCAL VOC 2012 數(shù)據(jù)集上實(shí)現(xiàn)了當(dāng)前最佳的性能。而且無(wú)需經(jīng)過(guò) COCO 數(shù)據(jù)集的預(yù)訓(xùn)練過(guò)程,他們的模型在 PASCAL VOC 2012 和 Cityscapes 基準(zhǔn)測(cè)試中能夠?qū)崿F(xiàn)了 84.0% mIoU。
▌引言
隨著卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的發(fā)展,層次特征的豐富性及端到端的訓(xùn)練框架可用性,逐像素(pixel-wise)的語(yǔ)義分割問(wèn)題的研究取得了顯著的進(jìn)步。但是,現(xiàn)有的研究對(duì)于高維度特征表征的編碼效果仍不理想,導(dǎo)致原始場(chǎng)景中上下文像素的空間分辨率遭受損失。
如圖1所示,全卷積神經(jīng)網(wǎng)絡(luò) (Full Convolutional Network,F(xiàn)CN) 缺乏對(duì)場(chǎng)景中小部件的預(yù)測(cè)能力,圖中第一排自行車的手柄消失了,而第二排中的羊被誤認(rèn)為牛。這對(duì)語(yǔ)義分割任務(wù)提出了挑戰(zhàn)。首先是多尺度目標(biāo)的存在會(huì)加大語(yǔ)義分割任務(wù)中類別分類的困難。為了解決這個(gè)問(wèn)題,PSPNet 或 DeepLab 系統(tǒng)提出空間金字塔結(jié)構(gòu),旨在不同的網(wǎng)格尺度或擴(kuò)張率下 (稱之為空間金字塔池化,ASPP),融合多尺度的特征信息。在 ASPP 模塊中,擴(kuò)張卷積是一種稀疏計(jì)算,這可能會(huì)導(dǎo)致產(chǎn)生網(wǎng)格偽像 (grid artifacts)。而 PSPNet 中提出的金字塔池化模塊則可能會(huì)丟失像素級(jí)別的定位信息。受 SENet 和 Parsenet 的啟發(fā),我們嘗試從 CNN 的高層次特征中提取出準(zhǔn)確的像素級(jí)注意力特征。圖1展示了我們提出的特征金字塔注意力模塊 (Feature Pyramid Attention,F(xiàn)PA)的能力,它能夠擴(kuò)大感受野的范圍并有效地實(shí)現(xiàn)小目標(biāo)的分類。
圖1:VOC 數(shù)據(jù)集的可視化結(jié)果
上圖中,正如我們所看到的,F(xiàn)CN 模型難以對(duì)小目標(biāo)和細(xì)節(jié)進(jìn)行預(yù)測(cè)。在第一排中自行車的手柄在預(yù)測(cè)中丟失了,而第二排中出現(xiàn)了錯(cuò)誤的動(dòng)物類別預(yù)測(cè)。我們的特征金字塔注意力模塊 (FPA) 和全局注意力上采樣 (GAU) 模塊旨在擴(kuò)大目標(biāo)感受野并有效地恢復(fù)像素的定位細(xì)節(jié)。
另一個(gè)問(wèn)題是,高層次的特征在對(duì)類別進(jìn)行準(zhǔn)確分類時(shí)非常有效,但在重組原始分辨率的二類預(yù)測(cè)問(wèn)題方面比較薄弱。一些 U 型網(wǎng)絡(luò),如 SegNet,Refinenet 以及 Large Kernel Matters 能夠在復(fù)雜的解碼器模塊中使用低層次信息來(lái)幫助高層次特征恢復(fù)圖像細(xì)節(jié)。但是,這些方法都很耗時(shí),運(yùn)行效率不高。解決這個(gè)問(wèn)題,我們提出了一種稱為 Global Attention Upsample (GAU) 方法,這是一個(gè)有效的解碼器模塊,在不需要耗費(fèi)過(guò)多計(jì)算資源的情況下,它可以提取高層次特征的全局上下文信息,作為低層次特征的加權(quán)計(jì)算的指導(dǎo)。
總的來(lái)說(shuō),我們的工作主要有以下三個(gè)貢獻(xiàn):
1. 我們提出一個(gè)特征金字塔注意模塊,可以在基于 FCN 的像素預(yù)測(cè)框架中嵌入不同尺度的上下文特征信息。
2. 我們開(kāi)發(fā)了一個(gè)高效的解碼器模塊 Global Attention Upsample,用于處理圖像的語(yǔ)義分割問(wèn)題。
3. 結(jié)合特征金字塔注意力模塊和全局注意力上采樣模塊,我們的金字塔注意力網(wǎng)絡(luò)在 VOC2012 和 cityscapes 的測(cè)試基準(zhǔn)中取得了當(dāng)前最佳的性能。
▌模型方法
特征金字塔注意力模塊 FPA
基于以上觀察,我們提出了特征金字塔注意力模塊 (FPA),該模塊能夠融合來(lái)自 U 型網(wǎng)絡(luò) (如特征金字塔網(wǎng)絡(luò) FPN) 所提取的三種不同尺度的金字塔特征。為了更好地提取不同尺度下金字塔特征的上下文信息,我們分別在金字塔結(jié)構(gòu)中使用 3×3, 5×5, 7×7 的卷積核。由于高層次特征圖的分辨率較小,因此我們使用較大的內(nèi)核并不會(huì)帶來(lái)太多的計(jì)算負(fù)擔(dān)。隨后,金字塔結(jié)構(gòu)逐步集成不同尺度下的特征信息,這樣可以更準(zhǔn)確地結(jié)合相鄰尺度的上下文特征。然后,經(jīng)過(guò) 1×1 卷積處理后,由 CNN 所提取的原始特征通過(guò)金字塔注意力特征進(jìn)行逐像素相乘。此外,我們還引入了全局池化分支來(lái)聯(lián)結(jié)輸出的特征,這將進(jìn)一步提高 FPA 模塊的性能。整體的模塊結(jié)構(gòu)如下圖 2 所示。得益于空間金字塔結(jié)構(gòu),F(xiàn)PA 模塊可以融合不同尺度的上下文信息,同時(shí)還能為高層次的特征圖提供更好的像素級(jí)注意力。
圖2:特征金字塔注意力模塊結(jié)構(gòu)
上圖中,(a) 空間金字塔池結(jié)構(gòu)。(b) 特征金字塔注意力模塊。 '4×4,8×8,16×16,32×32' 分別代表特征映射的不同分辨率。虛線框表示全局池化分支。藍(lán)色和紅色的線條分別代表下采樣和上采樣運(yùn)算符。
全局注意力上采樣模塊 GAU
我們提出的全局注意力上采樣模塊 (Global Attention Upsample,GAU),通過(guò)全局池化過(guò)程將全局上下文信息作為低層特征的指導(dǎo),來(lái)選擇類別的定位細(xì)節(jié)。具體地說(shuō),我們對(duì)低層次特征執(zhí)行 3×3 的卷積操作,以減少 CNN 特征圖的通道數(shù)。從高層次特征生成的全局上下文信息依次經(jīng)過(guò) 1×1 卷積、批量歸一化 (batch normalization) 和非線性變換操作 (nonlinearity),然后再與低層次特征相乘。最后,高層次特征與加權(quán)后的低層次特征相加并進(jìn)行逐步的上采樣過(guò)程。我們的 GAU 模塊不僅能夠更有效地適應(yīng)不同尺度下的特征映射,還能以簡(jiǎn)單的方式為低層次的特征映射提供指導(dǎo)信息。模塊的結(jié)構(gòu)示意圖如下圖3所示。
圖3:全局注意力上采樣模塊
金字塔注意力網(wǎng)絡(luò) PAN
結(jié)合特征金字塔注意力模塊 (FPA) 和全局注意力上采樣模塊 (GAU),我們提出金字塔注意力網(wǎng)絡(luò) (PAN),其結(jié)構(gòu)示意圖如下圖 4 所示。我們使用在 ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練好的 ResNet-101 模型,輔以擴(kuò)張卷積策略來(lái)提取特征圖。具體地說(shuō),我們?cè)?res5b 模塊上應(yīng)用擴(kuò)張率為 2 的擴(kuò)張卷積,以便 ResNet 輸出的特征圖大小為原輸入圖像的1/16,這與 DeepLabv3+ 模型中的設(shè)置是一致的。正如 PSPNet 和 DUC 模型那樣,我們用三個(gè) 3×3 卷積層來(lái)取代原 ResNet-101 模型中的 7×7 卷積。此外,我們使用 FPA 模塊來(lái)收集 ResNet 的輸出中密集的像素級(jí)注意力信息。結(jié)合全局的上下文信息,經(jīng) GAU 模塊后,生成最終的預(yù)測(cè)圖。
圖4:金字塔注意力網(wǎng)絡(luò)結(jié)構(gòu)
上圖中,我們使用 ResNet-101 模型來(lái)提取密集的特征。然后,我們分別執(zhí)行 FPA 模塊和 GAU 模塊進(jìn)行準(zhǔn)確的像素預(yù)測(cè)并獲取目標(biāo)定位的細(xì)節(jié)。藍(lán)線和紅線分別代表下采樣和上采樣運(yùn)算符。
我們將 FPA 模塊視為編碼器和解碼器結(jié)構(gòu)之間的中心模塊。即使沒(méi)有全局注意上采樣模塊,F(xiàn)PA 模塊也能夠進(jìn)行足夠準(zhǔn)確的像素級(jí)預(yù)測(cè)和類別分類。在實(shí)現(xiàn) FPA 模塊后,我們將 GAU 模塊視為一種快速有效的解碼器結(jié)構(gòu),它使用高層次的特征來(lái)指導(dǎo)低層次的信息,并將二者結(jié)合起來(lái)。
▌實(shí)驗(yàn)結(jié)果
我們?cè)?PASCAL VOC2012 和 cityscapes 數(shù)據(jù)集上分別評(píng)估了我們的方法。
Ablation Experiments
FPA 模塊
我們分別對(duì)池化類型、金字塔結(jié)構(gòu)、卷積核大小、全局池化四種設(shè)置進(jìn)行了Ablation Experiments分析,結(jié)果如下:其中 AVE 表示平均池化策略,MAX 表示最大池化,C333 代表全部使用 3×3 的卷積核,C357 表示所使用的卷積核分別為 3×3、5×5 和 7×7,GP 代表全局池化分支,SE 表示使用 SENet 注意力模塊。
池化類型:在這項(xiàng)工作中,我們發(fā)現(xiàn) AVE 的性能要優(yōu)于 MAX:對(duì)于 3×3 的卷積核設(shè)置,AVE 的性能能達(dá)到 77.54%,優(yōu)于 MAX 所取得的77.13%。
金字塔結(jié)構(gòu):我們的模型在驗(yàn)證集上能取得 72.60% 的 mIoU。此外,我們使用 C333 和 AVE 時(shí),模型的性能能夠從 72.6% 提升至 77.54%。我們還使用 SENet 注意力模塊來(lái)取代金字塔結(jié)構(gòu),進(jìn)一步對(duì)比評(píng)估二者的性能。實(shí)驗(yàn)結(jié)果如下表1所示,與 SENet 注意力模塊相比,C333 和 AVE 設(shè)置能將性能提高了近1.8%。
卷積核大?。簩?duì)于使用平均池化的金字塔結(jié)構(gòu),我們使用 C357 取代 C333 卷積核設(shè)置,金字塔結(jié)構(gòu)中特征映射的分辨率為 16×16,8×8,4×4。實(shí)驗(yàn)結(jié)果表明,模型性能能夠從 77.54% 提高至 78.19%。
全局池化:我們進(jìn)一步在金字塔結(jié)構(gòu)中添加全局池化分支以提高模型性能。實(shí)驗(yàn)結(jié)果表明,在最佳設(shè)置下模型能夠取得 78.37 的 mIoU 和 95.03% 的 Pixel Acc。
表1:不同設(shè)置下 FPA 模塊的性能
GAU 模塊
首先,我們?cè)u(píng)估 ResNet101+GAU 模型,然后我們將 FPA 和 GAU 模塊結(jié)合并在 VOC 2012 驗(yàn)證集中評(píng)估我們的模型。 我們分別在三種不同的解碼器設(shè)置下評(píng)估模型:(1) 僅使用跳躍連接的低級(jí)特征而沒(méi)有全局上下文注意力分支。(2) 使用 1×1 卷積來(lái)減少 GAU 模塊中的低層次特征的通道數(shù)。(3) 用 3×3 卷積代替 1×1 卷積減少通道數(shù)。實(shí)驗(yàn)結(jié)果如表2所示。
表2:不同解碼器設(shè)置下的模型性能
此外,我們還比較了ResNet101+GAU 模型、Global Convolution Network 和 Discriminate Feature Network,實(shí)驗(yàn)結(jié)果如表3所示。
表3:我們模型與其他模型的比較結(jié)果
PASVAL VOC 2012 數(shù)據(jù)集
結(jié)合 FPA 模塊和 GAU 模塊的最佳設(shè)置,我們?cè)?PASVAL VOC 2012 數(shù)據(jù)集上評(píng)估了我們的金字塔注意力網(wǎng)絡(luò) (PAN)。實(shí)驗(yàn)結(jié)果如表4、表5所示??梢钥吹剑琍AN 取得了84.0% mIoU,超過(guò)現(xiàn)有的所有方法。
表4:在 VOC 2012 數(shù)據(jù)集上模型的性能
表5:在 PASVAL VOC 2012 測(cè)試集上單類別的實(shí)驗(yàn)結(jié)果
Cityscapes 數(shù)據(jù)集
Cityscapes 數(shù)據(jù)集包含 30 個(gè)類別,其中 19 個(gè)用于我們的模型訓(xùn)練和評(píng)估。整個(gè)數(shù)據(jù)集 5000 個(gè)帶細(xì)粒度標(biāo)注的圖像和 19998 個(gè)帶粗粒度標(biāo)注的圖像。具體地說(shuō),我們將細(xì)粒度圖像分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,分別有 2979、500 和 1525 張圖像。在訓(xùn)練期間,我們沒(méi)有使用帶粗粒度標(biāo)注的數(shù)據(jù)集,所使用的圖像尺寸為 768×768。同樣地,我們以 ResNet101 作為基礎(chǔ)模型,實(shí)驗(yàn)結(jié)果如表6列出。
表6:Cityscapes 測(cè)試集上模型的性能
▌結(jié)論
在本文中,我們提出了一種金字塔注意力網(wǎng)絡(luò),用于處理圖像語(yǔ)義分割問(wèn)題。我們?cè)O(shè)計(jì)了特征金字塔注意力模塊 (FPA) 和全局注意力上采樣模塊 (GAU)。FPA 模塊能夠提供像素級(jí)注意力信息并通過(guò)金字塔結(jié)構(gòu)來(lái)擴(kuò)大感受野的范圍。GAU 模塊能夠利用高層次特征圖來(lái)指導(dǎo)低層次特征恢復(fù)圖像像素的定位。實(shí)驗(yàn)結(jié)果表明,我們所提出的方法在 PASCAL VOC 2012 語(yǔ)義分割任務(wù)實(shí)現(xiàn)了當(dāng)前最佳的性能。
-
解碼器
+關(guān)注
關(guān)注
9文章
1159瀏覽量
41391 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4789瀏覽量
101882 -
圖像
+關(guān)注
關(guān)注
2文章
1091瀏覽量
40787
原文標(biāo)題:北大、北理工、曠視聯(lián)手:用于圖像語(yǔ)義分割的金字塔注意力網(wǎng)絡(luò)
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
van-自然和醫(yī)學(xué)圖像的深度語(yǔ)義分割:網(wǎng)絡(luò)結(jié)構(gòu)
van-自然和醫(yī)學(xué)圖像的深度語(yǔ)義分割:網(wǎng)絡(luò)結(jié)構(gòu)
基于金字塔模型的地形網(wǎng)格裂縫消除算法
圖像金字塔和resize綜合示例_《OpenCV3編程入門》書(shū)本配套源代碼
可控特性的金字塔變換

基于梯度方向直方圖與高斯金字塔的車牌模糊漢字識(shí)別方法

如何實(shí)現(xiàn)多聚焦圖像融合的拉普拉斯金字塔方法

一種全新的遙感圖像描述生成方法

評(píng)論