0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種金字塔注意力網(wǎng)絡(luò),用于處理圖像語義分割問題

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-06-05 09:21 ? 次閱讀

近日,北京理工大學(xué)、曠視科技、北京大學(xué)聯(lián)手,發(fā)表了一篇名為 Pyramid Attention Network for Semantic Segmentation 的論文。在這篇論文中,四位研究者提出了一種金字塔注意力網(wǎng)絡(luò)(Pyramid Attention Network,PAN),利用圖像全局的上下文信息來解決語義分割問題。

與大多數(shù)現(xiàn)有研究利用復(fù)雜的擴張卷積 (dilated convolution) 并人為地設(shè)計解碼器網(wǎng)絡(luò)不同的是,論文作者將注意力機制和空間金字塔(spatial pyramid)相結(jié)合,來提取準(zhǔn)確而密集的特征并獲取像素標(biāo)簽。

具體來說,他們引入了一個特征金字塔注意力模塊 (Feature Pyramid Attention module),在高層的輸出上施加空間金字塔注意力結(jié)構(gòu),并結(jié)合全局池化策略來學(xué)習(xí)更好的特征表征。此外,利用每個解碼器層中的全局注意力上采樣模塊 (Global Attention Upsample module) 得到的全局上下文特征信息,作為低級別特征的指導(dǎo),以此來篩選不同類別的定位細(xì)節(jié)。

論文作者表示,他們提出的方法在 PASCAL VOC 2012 數(shù)據(jù)集上實現(xiàn)了當(dāng)前最佳的性能。而且無需經(jīng)過 COCO 數(shù)據(jù)集的預(yù)訓(xùn)練過程,他們的模型在 PASCAL VOC 2012 和 Cityscapes 基準(zhǔn)測試中能夠?qū)崿F(xiàn)了 84.0% mIoU。

▌引言

隨著卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的發(fā)展,層次特征的豐富性及端到端的訓(xùn)練框架可用性,逐像素(pixel-wise)的語義分割問題的研究取得了顯著的進步。但是,現(xiàn)有的研究對于高維度特征表征的編碼效果仍不理想,導(dǎo)致原始場景中上下文像素的空間分辨率遭受損失。

如圖1所示,全卷積神經(jīng)網(wǎng)絡(luò) (Full Convolutional Network,F(xiàn)CN) 缺乏對場景中小部件的預(yù)測能力,圖中第一排自行車的手柄消失了,而第二排中的羊被誤認(rèn)為牛。這對語義分割任務(wù)提出了挑戰(zhàn)。首先是多尺度目標(biāo)的存在會加大語義分割任務(wù)中類別分類的困難。為了解決這個問題,PSPNet 或 DeepLab 系統(tǒng)提出空間金字塔結(jié)構(gòu),旨在不同的網(wǎng)格尺度或擴張率下 (稱之為空間金字塔池化,ASPP),融合多尺度的特征信息。在 ASPP 模塊中,擴張卷積是一種稀疏計算,這可能會導(dǎo)致產(chǎn)生網(wǎng)格偽像 (grid artifacts)。而 PSPNet 中提出的金字塔池化模塊則可能會丟失像素級別的定位信息。受 SENet 和 Parsenet 的啟發(fā),我們嘗試從 CNN 的高層次特征中提取出準(zhǔn)確的像素級注意力特征。圖1展示了我們提出的特征金字塔注意力模塊 (Feature Pyramid Attention,F(xiàn)PA)的能力,它能夠擴大感受野的范圍并有效地實現(xiàn)小目標(biāo)的分類。

圖1:VOC 數(shù)據(jù)集的可視化結(jié)果

上圖中,正如我們所看到的,F(xiàn)CN 模型難以對小目標(biāo)和細(xì)節(jié)進行預(yù)測。在第一排中自行車的手柄在預(yù)測中丟失了,而第二排中出現(xiàn)了錯誤的動物類別預(yù)測。我們的特征金字塔注意力模塊 (FPA) 和全局注意力上采樣 (GAU) 模塊旨在擴大目標(biāo)感受野并有效地恢復(fù)像素的定位細(xì)節(jié)。

另一個問題是,高層次的特征在對類別進行準(zhǔn)確分類時非常有效,但在重組原始分辨率的二類預(yù)測問題方面比較薄弱。一些 U 型網(wǎng)絡(luò),如 SegNet,Refinenet 以及 Large Kernel Matters 能夠在復(fù)雜的解碼器模塊中使用低層次信息來幫助高層次特征恢復(fù)圖像細(xì)節(jié)。但是,這些方法都很耗時,運行效率不高。解決這個問題,我們提出了一種稱為 Global Attention Upsample (GAU) 方法,這是一個有效的解碼器模塊,在不需要耗費過多計算資源的情況下,它可以提取高層次特征的全局上下文信息,作為低層次特征的加權(quán)計算的指導(dǎo)。

總的來說,我們的工作主要有以下三個貢獻:

1. 我們提出一個特征金字塔注意模塊,可以在基于 FCN 的像素預(yù)測框架中嵌入不同尺度的上下文特征信息。

2. 我們開發(fā)了一個高效的解碼器模塊 Global Attention Upsample,用于處理圖像的語義分割問題。

3. 結(jié)合特征金字塔注意力模塊和全局注意力上采樣模塊,我們的金字塔注意力網(wǎng)絡(luò)在 VOC2012 和 cityscapes 的測試基準(zhǔn)中取得了當(dāng)前最佳的性能。

▌模型方法

特征金字塔注意力模塊 FPA

基于以上觀察,我們提出了特征金字塔注意力模塊 (FPA),該模塊能夠融合來自 U 型網(wǎng)絡(luò) (如特征金字塔網(wǎng)絡(luò) FPN) 所提取的三種不同尺度的金字塔特征。為了更好地提取不同尺度下金字塔特征的上下文信息,我們分別在金字塔結(jié)構(gòu)中使用 3×3, 5×5, 7×7 的卷積核。由于高層次特征圖的分辨率較小,因此我們使用較大的內(nèi)核并不會帶來太多的計算負(fù)擔(dān)。隨后,金字塔結(jié)構(gòu)逐步集成不同尺度下的特征信息,這樣可以更準(zhǔn)確地結(jié)合相鄰尺度的上下文特征。然后,經(jīng)過 1×1 卷積處理后,由 CNN 所提取的原始特征通過金字塔注意力特征進行逐像素相乘。此外,我們還引入了全局池化分支來聯(lián)結(jié)輸出的特征,這將進一步提高 FPA 模塊的性能。整體的模塊結(jié)構(gòu)如下圖 2 所示。得益于空間金字塔結(jié)構(gòu),F(xiàn)PA 模塊可以融合不同尺度的上下文信息,同時還能為高層次的特征圖提供更好的像素級注意力。

圖2:特征金字塔注意力模塊結(jié)構(gòu)

上圖中,(a) 空間金字塔池結(jié)構(gòu)。(b) 特征金字塔注意力模塊。 '4×4,8×8,16×16,32×32' 分別代表特征映射的不同分辨率。虛線框表示全局池化分支。藍色和紅色的線條分別代表下采樣和上采樣運算符。

全局注意力上采樣模塊 GAU

我們提出的全局注意力上采樣模塊 (Global Attention Upsample,GAU),通過全局池化過程將全局上下文信息作為低層特征的指導(dǎo),來選擇類別的定位細(xì)節(jié)。具體地說,我們對低層次特征執(zhí)行 3×3 的卷積操作,以減少 CNN 特征圖的通道數(shù)。從高層次特征生成的全局上下文信息依次經(jīng)過 1×1 卷積、批量歸一化 (batch normalization) 和非線性變換操作 (nonlinearity),然后再與低層次特征相乘。最后,高層次特征與加權(quán)后的低層次特征相加并進行逐步的上采樣過程。我們的 GAU 模塊不僅能夠更有效地適應(yīng)不同尺度下的特征映射,還能以簡單的方式為低層次的特征映射提供指導(dǎo)信息。模塊的結(jié)構(gòu)示意圖如下圖3所示。

圖3:全局注意力上采樣模塊

金字塔注意力網(wǎng)絡(luò) PAN

結(jié)合特征金字塔注意力模塊 (FPA) 和全局注意力上采樣模塊 (GAU),我們提出金字塔注意力網(wǎng)絡(luò) (PAN),其結(jié)構(gòu)示意圖如下圖 4 所示。我們使用在 ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練好的 ResNet-101 模型,輔以擴張卷積策略來提取特征圖。具體地說,我們在 res5b 模塊上應(yīng)用擴張率為 2 的擴張卷積,以便 ResNet 輸出的特征圖大小為原輸入圖像的1/16,這與 DeepLabv3+ 模型中的設(shè)置是一致的。正如 PSPNet 和 DUC 模型那樣,我們用三個 3×3 卷積層來取代原 ResNet-101 模型中的 7×7 卷積。此外,我們使用 FPA 模塊來收集 ResNet 的輸出中密集的像素級注意力信息。結(jié)合全局的上下文信息,經(jīng) GAU 模塊后,生成最終的預(yù)測圖。

圖4:金字塔注意力網(wǎng)絡(luò)結(jié)構(gòu)

上圖中,我們使用 ResNet-101 模型來提取密集的特征。然后,我們分別執(zhí)行 FPA 模塊和 GAU 模塊進行準(zhǔn)確的像素預(yù)測并獲取目標(biāo)定位的細(xì)節(jié)。藍線和紅線分別代表下采樣和上采樣運算符。

我們將 FPA 模塊視為編碼器和解碼器結(jié)構(gòu)之間的中心模塊。即使沒有全局注意上采樣模塊,F(xiàn)PA 模塊也能夠進行足夠準(zhǔn)確的像素級預(yù)測和類別分類。在實現(xiàn) FPA 模塊后,我們將 GAU 模塊視為一種快速有效的解碼器結(jié)構(gòu),它使用高層次的特征來指導(dǎo)低層次的信息,并將二者結(jié)合起來。

▌實驗結(jié)果

我們在 PASCAL VOC2012 和 cityscapes 數(shù)據(jù)集上分別評估了我們的方法。

Ablation Experiments

FPA 模塊

我們分別對池化類型、金字塔結(jié)構(gòu)、卷積核大小、全局池化四種設(shè)置進行了Ablation Experiments分析,結(jié)果如下:其中 AVE 表示平均池化策略,MAX 表示最大池化,C333 代表全部使用 3×3 的卷積核,C357 表示所使用的卷積核分別為 3×3、5×5 和 7×7,GP 代表全局池化分支,SE 表示使用 SENet 注意力模塊。

池化類型:在這項工作中,我們發(fā)現(xiàn) AVE 的性能要優(yōu)于 MAX:對于 3×3 的卷積核設(shè)置,AVE 的性能能達到 77.54%,優(yōu)于 MAX 所取得的77.13%。

金字塔結(jié)構(gòu):我們的模型在驗證集上能取得 72.60% 的 mIoU。此外,我們使用 C333 和 AVE 時,模型的性能能夠從 72.6% 提升至 77.54%。我們還使用 SENet 注意力模塊來取代金字塔結(jié)構(gòu),進一步對比評估二者的性能。實驗結(jié)果如下表1所示,與 SENet 注意力模塊相比,C333 和 AVE 設(shè)置能將性能提高了近1.8%。

卷積核大?。簩τ谑褂闷骄鼗慕鹱炙Y(jié)構(gòu),我們使用 C357 取代 C333 卷積核設(shè)置,金字塔結(jié)構(gòu)中特征映射的分辨率為 16×16,8×8,4×4。實驗結(jié)果表明,模型性能能夠從 77.54% 提高至 78.19%。

全局池化:我們進一步在金字塔結(jié)構(gòu)中添加全局池化分支以提高模型性能。實驗結(jié)果表明,在最佳設(shè)置下模型能夠取得 78.37 的 mIoU 和 95.03% 的 Pixel Acc。

表1:不同設(shè)置下 FPA 模塊的性能

GAU 模塊

首先,我們評估 ResNet101+GAU 模型,然后我們將 FPA 和 GAU 模塊結(jié)合并在 VOC 2012 驗證集中評估我們的模型。 我們分別在三種不同的解碼器設(shè)置下評估模型:(1) 僅使用跳躍連接的低級特征而沒有全局上下文注意力分支。(2) 使用 1×1 卷積來減少 GAU 模塊中的低層次特征的通道數(shù)。(3) 用 3×3 卷積代替 1×1 卷積減少通道數(shù)。實驗結(jié)果如表2所示。

表2:不同解碼器設(shè)置下的模型性能

此外,我們還比較了ResNet101+GAU 模型、Global Convolution Network 和 Discriminate Feature Network,實驗結(jié)果如表3所示。

表3:我們模型與其他模型的比較結(jié)果

PASVAL VOC 2012 數(shù)據(jù)集

結(jié)合 FPA 模塊和 GAU 模塊的最佳設(shè)置,我們在 PASVAL VOC 2012 數(shù)據(jù)集上評估了我們的金字塔注意力網(wǎng)絡(luò) (PAN)。實驗結(jié)果如表4、表5所示??梢钥吹剑琍AN 取得了84.0% mIoU,超過現(xiàn)有的所有方法。

表4:在 VOC 2012 數(shù)據(jù)集上模型的性能

表5:在 PASVAL VOC 2012 測試集上單類別的實驗結(jié)果

Cityscapes 數(shù)據(jù)集

Cityscapes 數(shù)據(jù)集包含 30 個類別,其中 19 個用于我們的模型訓(xùn)練和評估。整個數(shù)據(jù)集 5000 個帶細(xì)粒度標(biāo)注的圖像和 19998 個帶粗粒度標(biāo)注的圖像。具體地說,我們將細(xì)粒度圖像分為訓(xùn)練集、驗證集和測試集,分別有 2979、500 和 1525 張圖像。在訓(xùn)練期間,我們沒有使用帶粗粒度標(biāo)注的數(shù)據(jù)集,所使用的圖像尺寸為 768×768。同樣地,我們以 ResNet101 作為基礎(chǔ)模型,實驗結(jié)果如表6列出。

表6:Cityscapes 測試集上模型的性能

▌結(jié)論

在本文中,我們提出了一種金字塔注意力網(wǎng)絡(luò),用于處理圖像語義分割問題。我們設(shè)計了特征金字塔注意力模塊 (FPA) 和全局注意力上采樣模塊 (GAU)。FPA 模塊能夠提供像素級注意力信息并通過金字塔結(jié)構(gòu)來擴大感受野的范圍。GAU 模塊能夠利用高層次特征圖來指導(dǎo)低層次特征恢復(fù)圖像像素的定位。實驗結(jié)果表明,我們所提出的方法在 PASCAL VOC 2012 語義分割任務(wù)實現(xiàn)了當(dāng)前最佳的性能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1143

    瀏覽量

    40741
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4771

    瀏覽量

    100766
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1084

    瀏覽量

    40463

原文標(biāo)題:北大、北理工、曠視聯(lián)手:用于圖像語義分割的金字塔注意力網(wǎng)絡(luò)

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    PCB工程師金字塔分級標(biāo)準(zhǔn)

    PCB工程師金字塔分級標(biāo)準(zhǔn)
    發(fā)表于 08-06 13:21

    自制for循環(huán)打印金字塔

    自制for循環(huán)打印金字塔
    發(fā)表于 09-18 08:46

    van-自然和醫(yī)學(xué)圖像的深度語義分割網(wǎng)絡(luò)結(jié)構(gòu)

    覆蓋了圖像的全部、半和小部分。他們被融合為全局先驗信息;在c的最后部分將之前的金字塔特征映射與原始特征映射concate起來;在進行卷積,生成d中的最終預(yù)測圖??偨Y(jié)基于深度學(xué)習(xí)的圖像
    發(fā)表于 12-28 11:03

    van-自然和醫(yī)學(xué)圖像的深度語義分割網(wǎng)絡(luò)結(jié)構(gòu)

    覆蓋了圖像的全部、半和小部分。他們被融合為全局先驗信息;在c的最后部分將之前的金字塔特征映射與原始特征映射concate起來;在進行卷積,生成d中的最終預(yù)測圖??偨Y(jié)基于深度學(xué)習(xí)的圖像
    發(fā)表于 12-28 11:06

    基于金字塔模型的地形網(wǎng)格裂縫消除算法

    本文針對基于多分辨金字塔模型繪制海量地形時的網(wǎng)格裂縫問題,提出了一種網(wǎng)格裂縫消除算法。該算法利用分裂標(biāo)記表,結(jié)合金字塔模型本身分塊與多分辨率的特性,從整體上
    發(fā)表于 12-30 12:02 ?8次下載

    圖像金字塔和resize綜合示例_《OpenCV3編程入門》書本配套源代碼

    《OpenCV3編程入門》書本配套源代碼:圖像金字塔和resize綜合示例
    發(fā)表于 06-06 15:52 ?3次下載

    繪制金字塔程序?qū)崿F(xiàn)

    用c語言編程繪制金字塔
    發(fā)表于 11-27 16:24 ?824次閱讀

    可控特性的金字塔變換

    本文設(shè)計了一種具有平移不變性、方向和尺度聯(lián)合可控特性的金字塔變換,稱為幾何變形可控金字塔變換(DPT)。此DPT從一種數(shù)值形式表示的方向可控金字塔
    發(fā)表于 12-14 16:41 ?4次下載
    可控特性的<b class='flag-5'>金字塔</b>變換

    基于梯度方向直方圖與高斯金字塔的車牌模糊漢字識別方法

    針對現(xiàn)有車牌識別方法中對模糊車牌識別率不高的問題,提出一種結(jié)合高斯金字塔與梯度方向直方圖(HOG)特征的車牌識別算法。利用金字塔模型多尺度表達的方法,首先對車牌模糊漢字圖像建立兩層高斯
    發(fā)表于 12-25 10:43 ?0次下載
    基于梯度方向直方圖與高斯<b class='flag-5'>金字塔</b>的車牌模糊漢字識別方法

    卷積神經(jīng)網(wǎng)絡(luò)的巖心FIB-SEM圖像分割算法

    一種利用卷積神經(jīng)網(wǎng)絡(luò)的端到端巖心FIB-SEM圖像分割算法。結(jié)合光流法與分水嶺分割圖像標(biāo)注法構(gòu)建
    發(fā)表于 03-11 17:35 ?6次下載
    卷積神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b>的巖心FIB-SEM<b class='flag-5'>圖像</b><b class='flag-5'>分割</b>算法

    一種全新的遙感圖像描述生成方法

    方法通過軟意機制實現(xiàn)生成單詞與圖像特征之間的對齊關(guān)系。此外,針對遙感圖像分辨率較高、目標(biāo)尺度變化較大的特點,還提出基于金字塔池化和通道
    發(fā)表于 04-20 11:21 ?2次下載
    <b class='flag-5'>一種</b>全新的遙感<b class='flag-5'>圖像</b>描述生成方法

    基于密集注意力網(wǎng)絡(luò)圖像自動分割算法

    網(wǎng)絡(luò)圖像自動分割算法。將編碼器-解碼器全卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)與密集連接網(wǎng)絡(luò)相結(jié)合,以充分提取每
    發(fā)表于 05-24 15:45 ?11次下載

    基于密集層和注意力機制的快速場景語義分割方法

    針對傳統(tǒng)語義分割網(wǎng)絡(luò)速度慢、精度低的問題,提出一種基于密集層和注意力機制的快速場景語義
    發(fā)表于 05-24 15:48 ?6次下載

    基于金字塔的激光雷達和攝像頭深度融合網(wǎng)絡(luò)

    自動駕駛汽車的魯棒環(huán)境感知是項巨大的挑戰(zhàn),這使得多傳感器配置與例如相機、激光雷達和雷達至關(guān)重要。在理解傳感器數(shù)據(jù)的過程中,3D 語義分割起著重要的作用。因此,本文提出了一種基于
    的頭像 發(fā)表于 10-09 15:24 ?2445次閱讀

    普通視覺Transformer(ViT)用于語義分割的能力

    本文探討了普通視覺Transformer(ViT)用于語義分割的能力,并提出了SegViT。以前基于ViT的分割網(wǎng)絡(luò)通常從ViT的輸出中學(xué)習(xí)
    的頭像 發(fā)表于 10-31 09:57 ?5118次閱讀