近日,北京理工大學(xué)、曠視科技、北京大學(xué)聯(lián)手,發(fā)表了一篇名為 Pyramid Attention Network for Semantic Segmentation 的論文。在這篇論文中,四位研究者提出了一種金字塔注意力網(wǎng)絡(luò)(Pyramid Attention Network,PAN),利用圖像全局的上下文信息來解決語義分割問題。
與大多數(shù)現(xiàn)有研究利用復(fù)雜的擴張卷積 (dilated convolution) 并人為地設(shè)計解碼器網(wǎng)絡(luò)不同的是,論文作者將注意力機制和空間金字塔(spatial pyramid)相結(jié)合,來提取準(zhǔn)確而密集的特征并獲取像素標(biāo)簽。
具體來說,他們引入了一個特征金字塔注意力模塊 (Feature Pyramid Attention module),在高層的輸出上施加空間金字塔注意力結(jié)構(gòu),并結(jié)合全局池化策略來學(xué)習(xí)更好的特征表征。此外,利用每個解碼器層中的全局注意力上采樣模塊 (Global Attention Upsample module) 得到的全局上下文特征信息,作為低級別特征的指導(dǎo),以此來篩選不同類別的定位細(xì)節(jié)。
論文作者表示,他們提出的方法在 PASCAL VOC 2012 數(shù)據(jù)集上實現(xiàn)了當(dāng)前最佳的性能。而且無需經(jīng)過 COCO 數(shù)據(jù)集的預(yù)訓(xùn)練過程,他們的模型在 PASCAL VOC 2012 和 Cityscapes 基準(zhǔn)測試中能夠?qū)崿F(xiàn)了 84.0% mIoU。
▌引言
隨著卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的發(fā)展,層次特征的豐富性及端到端的訓(xùn)練框架可用性,逐像素(pixel-wise)的語義分割問題的研究取得了顯著的進步。但是,現(xiàn)有的研究對于高維度特征表征的編碼效果仍不理想,導(dǎo)致原始場景中上下文像素的空間分辨率遭受損失。
如圖1所示,全卷積神經(jīng)網(wǎng)絡(luò) (Full Convolutional Network,F(xiàn)CN) 缺乏對場景中小部件的預(yù)測能力,圖中第一排自行車的手柄消失了,而第二排中的羊被誤認(rèn)為牛。這對語義分割任務(wù)提出了挑戰(zhàn)。首先是多尺度目標(biāo)的存在會加大語義分割任務(wù)中類別分類的困難。為了解決這個問題,PSPNet 或 DeepLab 系統(tǒng)提出空間金字塔結(jié)構(gòu),旨在不同的網(wǎng)格尺度或擴張率下 (稱之為空間金字塔池化,ASPP),融合多尺度的特征信息。在 ASPP 模塊中,擴張卷積是一種稀疏計算,這可能會導(dǎo)致產(chǎn)生網(wǎng)格偽像 (grid artifacts)。而 PSPNet 中提出的金字塔池化模塊則可能會丟失像素級別的定位信息。受 SENet 和 Parsenet 的啟發(fā),我們嘗試從 CNN 的高層次特征中提取出準(zhǔn)確的像素級注意力特征。圖1展示了我們提出的特征金字塔注意力模塊 (Feature Pyramid Attention,F(xiàn)PA)的能力,它能夠擴大感受野的范圍并有效地實現(xiàn)小目標(biāo)的分類。
圖1:VOC 數(shù)據(jù)集的可視化結(jié)果
上圖中,正如我們所看到的,F(xiàn)CN 模型難以對小目標(biāo)和細(xì)節(jié)進行預(yù)測。在第一排中自行車的手柄在預(yù)測中丟失了,而第二排中出現(xiàn)了錯誤的動物類別預(yù)測。我們的特征金字塔注意力模塊 (FPA) 和全局注意力上采樣 (GAU) 模塊旨在擴大目標(biāo)感受野并有效地恢復(fù)像素的定位細(xì)節(jié)。
另一個問題是,高層次的特征在對類別進行準(zhǔn)確分類時非常有效,但在重組原始分辨率的二類預(yù)測問題方面比較薄弱。一些 U 型網(wǎng)絡(luò),如 SegNet,Refinenet 以及 Large Kernel Matters 能夠在復(fù)雜的解碼器模塊中使用低層次信息來幫助高層次特征恢復(fù)圖像細(xì)節(jié)。但是,這些方法都很耗時,運行效率不高。解決這個問題,我們提出了一種稱為 Global Attention Upsample (GAU) 方法,這是一個有效的解碼器模塊,在不需要耗費過多計算資源的情況下,它可以提取高層次特征的全局上下文信息,作為低層次特征的加權(quán)計算的指導(dǎo)。
總的來說,我們的工作主要有以下三個貢獻:
1. 我們提出一個特征金字塔注意模塊,可以在基于 FCN 的像素預(yù)測框架中嵌入不同尺度的上下文特征信息。
2. 我們開發(fā)了一個高效的解碼器模塊 Global Attention Upsample,用于處理圖像的語義分割問題。
3. 結(jié)合特征金字塔注意力模塊和全局注意力上采樣模塊,我們的金字塔注意力網(wǎng)絡(luò)在 VOC2012 和 cityscapes 的測試基準(zhǔn)中取得了當(dāng)前最佳的性能。
▌模型方法
特征金字塔注意力模塊 FPA
基于以上觀察,我們提出了特征金字塔注意力模塊 (FPA),該模塊能夠融合來自 U 型網(wǎng)絡(luò) (如特征金字塔網(wǎng)絡(luò) FPN) 所提取的三種不同尺度的金字塔特征。為了更好地提取不同尺度下金字塔特征的上下文信息,我們分別在金字塔結(jié)構(gòu)中使用 3×3, 5×5, 7×7 的卷積核。由于高層次特征圖的分辨率較小,因此我們使用較大的內(nèi)核并不會帶來太多的計算負(fù)擔(dān)。隨后,金字塔結(jié)構(gòu)逐步集成不同尺度下的特征信息,這樣可以更準(zhǔn)確地結(jié)合相鄰尺度的上下文特征。然后,經(jīng)過 1×1 卷積處理后,由 CNN 所提取的原始特征通過金字塔注意力特征進行逐像素相乘。此外,我們還引入了全局池化分支來聯(lián)結(jié)輸出的特征,這將進一步提高 FPA 模塊的性能。整體的模塊結(jié)構(gòu)如下圖 2 所示。得益于空間金字塔結(jié)構(gòu),F(xiàn)PA 模塊可以融合不同尺度的上下文信息,同時還能為高層次的特征圖提供更好的像素級注意力。
圖2:特征金字塔注意力模塊結(jié)構(gòu)
上圖中,(a) 空間金字塔池結(jié)構(gòu)。(b) 特征金字塔注意力模塊。 '4×4,8×8,16×16,32×32' 分別代表特征映射的不同分辨率。虛線框表示全局池化分支。藍色和紅色的線條分別代表下采樣和上采樣運算符。
全局注意力上采樣模塊 GAU
我們提出的全局注意力上采樣模塊 (Global Attention Upsample,GAU),通過全局池化過程將全局上下文信息作為低層特征的指導(dǎo),來選擇類別的定位細(xì)節(jié)。具體地說,我們對低層次特征執(zhí)行 3×3 的卷積操作,以減少 CNN 特征圖的通道數(shù)。從高層次特征生成的全局上下文信息依次經(jīng)過 1×1 卷積、批量歸一化 (batch normalization) 和非線性變換操作 (nonlinearity),然后再與低層次特征相乘。最后,高層次特征與加權(quán)后的低層次特征相加并進行逐步的上采樣過程。我們的 GAU 模塊不僅能夠更有效地適應(yīng)不同尺度下的特征映射,還能以簡單的方式為低層次的特征映射提供指導(dǎo)信息。模塊的結(jié)構(gòu)示意圖如下圖3所示。
圖3:全局注意力上采樣模塊
金字塔注意力網(wǎng)絡(luò) PAN
結(jié)合特征金字塔注意力模塊 (FPA) 和全局注意力上采樣模塊 (GAU),我們提出金字塔注意力網(wǎng)絡(luò) (PAN),其結(jié)構(gòu)示意圖如下圖 4 所示。我們使用在 ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練好的 ResNet-101 模型,輔以擴張卷積策略來提取特征圖。具體地說,我們在 res5b 模塊上應(yīng)用擴張率為 2 的擴張卷積,以便 ResNet 輸出的特征圖大小為原輸入圖像的1/16,這與 DeepLabv3+ 模型中的設(shè)置是一致的。正如 PSPNet 和 DUC 模型那樣,我們用三個 3×3 卷積層來取代原 ResNet-101 模型中的 7×7 卷積。此外,我們使用 FPA 模塊來收集 ResNet 的輸出中密集的像素級注意力信息。結(jié)合全局的上下文信息,經(jīng) GAU 模塊后,生成最終的預(yù)測圖。
圖4:金字塔注意力網(wǎng)絡(luò)結(jié)構(gòu)
上圖中,我們使用 ResNet-101 模型來提取密集的特征。然后,我們分別執(zhí)行 FPA 模塊和 GAU 模塊進行準(zhǔn)確的像素預(yù)測并獲取目標(biāo)定位的細(xì)節(jié)。藍線和紅線分別代表下采樣和上采樣運算符。
我們將 FPA 模塊視為編碼器和解碼器結(jié)構(gòu)之間的中心模塊。即使沒有全局注意上采樣模塊,F(xiàn)PA 模塊也能夠進行足夠準(zhǔn)確的像素級預(yù)測和類別分類。在實現(xiàn) FPA 模塊后,我們將 GAU 模塊視為一種快速有效的解碼器結(jié)構(gòu),它使用高層次的特征來指導(dǎo)低層次的信息,并將二者結(jié)合起來。
▌實驗結(jié)果
我們在 PASCAL VOC2012 和 cityscapes 數(shù)據(jù)集上分別評估了我們的方法。
Ablation Experiments
FPA 模塊
我們分別對池化類型、金字塔結(jié)構(gòu)、卷積核大小、全局池化四種設(shè)置進行了Ablation Experiments分析,結(jié)果如下:其中 AVE 表示平均池化策略,MAX 表示最大池化,C333 代表全部使用 3×3 的卷積核,C357 表示所使用的卷積核分別為 3×3、5×5 和 7×7,GP 代表全局池化分支,SE 表示使用 SENet 注意力模塊。
池化類型:在這項工作中,我們發(fā)現(xiàn) AVE 的性能要優(yōu)于 MAX:對于 3×3 的卷積核設(shè)置,AVE 的性能能達到 77.54%,優(yōu)于 MAX 所取得的77.13%。
金字塔結(jié)構(gòu):我們的模型在驗證集上能取得 72.60% 的 mIoU。此外,我們使用 C333 和 AVE 時,模型的性能能夠從 72.6% 提升至 77.54%。我們還使用 SENet 注意力模塊來取代金字塔結(jié)構(gòu),進一步對比評估二者的性能。實驗結(jié)果如下表1所示,與 SENet 注意力模塊相比,C333 和 AVE 設(shè)置能將性能提高了近1.8%。
卷積核大?。簩τ谑褂闷骄鼗慕鹱炙Y(jié)構(gòu),我們使用 C357 取代 C333 卷積核設(shè)置,金字塔結(jié)構(gòu)中特征映射的分辨率為 16×16,8×8,4×4。實驗結(jié)果表明,模型性能能夠從 77.54% 提高至 78.19%。
全局池化:我們進一步在金字塔結(jié)構(gòu)中添加全局池化分支以提高模型性能。實驗結(jié)果表明,在最佳設(shè)置下模型能夠取得 78.37 的 mIoU 和 95.03% 的 Pixel Acc。
表1:不同設(shè)置下 FPA 模塊的性能
GAU 模塊
首先,我們評估 ResNet101+GAU 模型,然后我們將 FPA 和 GAU 模塊結(jié)合并在 VOC 2012 驗證集中評估我們的模型。 我們分別在三種不同的解碼器設(shè)置下評估模型:(1) 僅使用跳躍連接的低級特征而沒有全局上下文注意力分支。(2) 使用 1×1 卷積來減少 GAU 模塊中的低層次特征的通道數(shù)。(3) 用 3×3 卷積代替 1×1 卷積減少通道數(shù)。實驗結(jié)果如表2所示。
表2:不同解碼器設(shè)置下的模型性能
此外,我們還比較了ResNet101+GAU 模型、Global Convolution Network 和 Discriminate Feature Network,實驗結(jié)果如表3所示。
表3:我們模型與其他模型的比較結(jié)果
PASVAL VOC 2012 數(shù)據(jù)集
結(jié)合 FPA 模塊和 GAU 模塊的最佳設(shè)置,我們在 PASVAL VOC 2012 數(shù)據(jù)集上評估了我們的金字塔注意力網(wǎng)絡(luò) (PAN)。實驗結(jié)果如表4、表5所示??梢钥吹剑琍AN 取得了84.0% mIoU,超過現(xiàn)有的所有方法。
表4:在 VOC 2012 數(shù)據(jù)集上模型的性能
表5:在 PASVAL VOC 2012 測試集上單類別的實驗結(jié)果
Cityscapes 數(shù)據(jù)集
Cityscapes 數(shù)據(jù)集包含 30 個類別,其中 19 個用于我們的模型訓(xùn)練和評估。整個數(shù)據(jù)集 5000 個帶細(xì)粒度標(biāo)注的圖像和 19998 個帶粗粒度標(biāo)注的圖像。具體地說,我們將細(xì)粒度圖像分為訓(xùn)練集、驗證集和測試集,分別有 2979、500 和 1525 張圖像。在訓(xùn)練期間,我們沒有使用帶粗粒度標(biāo)注的數(shù)據(jù)集,所使用的圖像尺寸為 768×768。同樣地,我們以 ResNet101 作為基礎(chǔ)模型,實驗結(jié)果如表6列出。
表6:Cityscapes 測試集上模型的性能
▌結(jié)論
在本文中,我們提出了一種金字塔注意力網(wǎng)絡(luò),用于處理圖像語義分割問題。我們設(shè)計了特征金字塔注意力模塊 (FPA) 和全局注意力上采樣模塊 (GAU)。FPA 模塊能夠提供像素級注意力信息并通過金字塔結(jié)構(gòu)來擴大感受野的范圍。GAU 模塊能夠利用高層次特征圖來指導(dǎo)低層次特征恢復(fù)圖像像素的定位。實驗結(jié)果表明,我們所提出的方法在 PASCAL VOC 2012 語義分割任務(wù)實現(xiàn)了當(dāng)前最佳的性能。
-
解碼器
+關(guān)注
關(guān)注
9文章
1143瀏覽量
40741 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100766 -
圖像
+關(guān)注
關(guān)注
2文章
1084瀏覽量
40463
原文標(biāo)題:北大、北理工、曠視聯(lián)手:用于圖像語義分割的金字塔注意力網(wǎng)絡(luò)
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論