0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

你認為Grid R-CNN會成為Faster R-CNN那樣的傳世經(jīng)典嗎?

電子工程師 ? 來源:lq ? 2018-12-25 10:42 ? 次閱讀

Grid R-CNN是商湯科技最新發(fā)表于arXiv的一篇目標檢測的論文,對Faster R-CNN架構(gòu)的目標坐標回歸部分進行了替換,取得了更加精確的定位精度,是最近非常值得一讀的論文。

今天就跟大家一起來細品此文妙處。

一、作者信息

該文所有作者均來自商湯科技:

該文直取Grid(網(wǎng)格)修飾R-CNN,意即將目標檢測中位置定位轉(zhuǎn)化為目標區(qū)域網(wǎng)格點的定位。

二、算法思想

如下圖所示:

在目前的R-CNN目標檢測算法中,目標的2個點(比如左上和右下)就能表征其位置,將目標的定位看為回歸問題,即將ROI特征flatten成向量,后接幾個全連接層回歸目標的坐標偏移量和寬高。

作者認為,這種處理方式?jīng)]能很好的利用特征的空間信息。

作者希望利用全卷積網(wǎng)絡(luò)的精確定位能力計算目標位置,將2個目標點的回歸問題,轉(zhuǎn)化為目標區(qū)域網(wǎng)格點(Grid Points)的定位問題。目標區(qū)域的網(wǎng)格點位置是全卷積網(wǎng)絡(luò)的監(jiān)督信息,因為是直接將目標區(qū)域等分,是可以直接計算的。網(wǎng)絡(luò)推斷時,計算heatmap的極值,即為求得的網(wǎng)格點(Grid Points)。

上圖展示了使用3*3網(wǎng)格點的情況。

三、算法流程

作者改造的是Faster R-CNN的目標定位部分,其算法流程如下:

前半部分與Faster R-CNN相同,在得到目標候選區(qū)域和ROI特征后,分類部分進行目標分類,而定位部分接全卷積網(wǎng)絡(luò),其監(jiān)督信息來自根據(jù)目標位置計算得到的網(wǎng)格監(jiān)督信息。

流程圖中作者特別標出了特征融合模塊(feature fusion module),其意在使用網(wǎng)格中相鄰網(wǎng)格點的位置相關(guān)性,融合特征使得定位更加精確。

以下針對其中關(guān)鍵步驟進行詳細說明。

3.1 網(wǎng)格引導(dǎo)定位

將目標區(qū)域劃為網(wǎng)格,目標的定位即轉(zhuǎn)化為網(wǎng)格點的定位。

訓(xùn)練時,ROI特征(14*14大?。┩ㄟ^8個3*3空洞卷積,再通過兩個反卷積把尺寸擴大(56*56),再通過一個卷積生成與網(wǎng)格點相關(guān)的 heatmaps(9 個點就是 9 張圖,后文實驗也使用了4個點的情況)。監(jiān)督信息是每一個點所處位置的交叉十字形狀的5個點的位置。最后再接sigmoid函數(shù),在heapmaps上得到概率圖。

推斷時,將heapmaps極值的位置映射回原圖,即得到了網(wǎng)格點的位置。

讀到這里,讀者可能會有一個疑問,即計算得到的網(wǎng)格點組成的形狀是方方正正的,而Heapmaps極值得到的網(wǎng)格點未必組合在一起是方方正正的,不好確定目標區(qū)域。

作者的方法是對原本應(yīng)該具有相同x或者y坐標的網(wǎng)格點的坐標進行平均。

到此,即得到了目標位置。

3.2 網(wǎng)格點特征融合

很顯然,網(wǎng)格點之間具有內(nèi)在的聯(lián)系,相鄰網(wǎng)格點之間可以相互校正位置提高定位精度。

為此,作者設(shè)計了網(wǎng)格點特征融合的機制。

首先,在計算網(wǎng)格點heapmaps時,每個網(wǎng)格點使用不同的濾波器組,防止它們之間共用特征以至相互影響。

然后在每個網(wǎng)格點的Heapmap出來后,將相鄰網(wǎng)格點的Heapmaps經(jīng)過卷積濾波與其相加,形成新的heapmap。

作者將距離特定網(wǎng)格點最近的相鄰網(wǎng)格點(1個單位網(wǎng)格長度)組成的網(wǎng)格點集合的特征融合稱為一階特征融合,次近的相鄰網(wǎng)格點(2個單位網(wǎng)格長度)組成的網(wǎng)格點集合的特征融合稱為二階特征融合。下圖中(a)(b)分別展示了此融合過程。

3.3 擴展區(qū)域映射

這一步主要是為了應(yīng)對在實際使用中,RPN 給出的 proposal并不總是將完整物體包含在內(nèi)。如下圖:

圖中白色的實線框表示 RPN 給出的候選框,它沒有完全包含所有的網(wǎng)格點。

而作者指出,簡單的擴大候選框的大小,不會帶來提升,甚至降低對小物體檢測的精度(后面有實驗驗證)。

作者認為heatmap的感受野其實是很大的,并不限于候選框內(nèi),所以就干脆直接將heatmap對應(yīng)的區(qū)域看成候選框覆蓋的區(qū)域兩倍大(如圖中虛線圍起來的區(qū)域)。

這么做的好處是,只需簡單修改網(wǎng)格引導(dǎo)定位中的位置映射公式。即

四、實驗結(jié)果

作者首先研究了算法中網(wǎng)格點數(shù)對精度的影響。如下圖:

相比回歸的方法,Grid R-CNN精度更高,而且隨著點數(shù)增加精度也在提高。

比較AP0.5和AP0.75發(fā)現(xiàn),精度提升主要來自高IoU閾值的情況。

其次,作者實驗了網(wǎng)格點特征融合策略對性能的影響。如下圖:

可見該文提出的特征融合策略是有效的,而且二階特征融合更加有效。

然后,作者實驗了擴展區(qū)域映射對精度的影響。如下圖:

可見,直接擴大候選框區(qū)域的方法傷害了精度,而本文提出的擴展區(qū)域映射(extended region mapping)的方法則使精度有較大的提高(1.2個AP)。

作者又在主流的目標檢測數(shù)據(jù)庫上與state-of-the-art進行了比較。

下圖展示了在Pascal VOC數(shù)據(jù)集上,相比R-FCN、FPN,使用相同骨干網(wǎng)的情況下,精度取得了極大的提升!

在COCO minival數(shù)據(jù)集上的實驗,同樣取得了較大幅度精度提升。

在COCO test-dev數(shù)據(jù)集上也實現(xiàn)了一騎絕塵!如下圖:

與Faster R-CNN相比,發(fā)現(xiàn)精度提升主要來自高IoU閾值的部分,如下圖所示。

所以作者猜測,Grid定位分支也許輕微影響了分類的分支。

下圖是一些目標的定位示例(請點擊大圖查看):

作者最后列出了Grid R-CNN對各目標類別的精度增益,發(fā)現(xiàn)那些矩形和長方形目標(例如鍵盤,筆記本電腦,叉子,火車和冰箱)往往獲得更大的精度增益,而具有圓形性質(zhì)的物體(例如運動球,飛盤,碗,鐘和杯子)則性能下降或獲得較小的增益。

五、總結(jié)

該文反思了目標檢測中的定位問題,提出以覆蓋目標的網(wǎng)格點作為監(jiān)督信息使用全卷積網(wǎng)絡(luò)定位網(wǎng)格點的方法,大幅提高了目標定位精度。值得研究目標檢測的朋友學習~

文中沒有提及推斷速度、代碼是否會開源,希望有進一步的消息出來。

目標定位的方法還有什么可挖掘的嗎?

你認為Grid R-CNN會成為Faster R-CNN那樣的傳世經(jīng)典嗎?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 濾波器
    +關(guān)注

    關(guān)注

    161

    文章

    7839

    瀏覽量

    178316
  • 數(shù)據(jù)庫
    +關(guān)注

    關(guān)注

    7

    文章

    3817

    瀏覽量

    64490
  • 網(wǎng)格
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    16024

原文標題:Grid R-CNN解讀:商湯最新目標檢測算法,定位精度超越Faster R-CNN

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于深度學習的目標檢測算法解析

    本節(jié)主要將近年來基于候選區(qū)域的目標檢測算法分為五個部分進行綜述,首先介紹了Faster R-CNN[14]框架的發(fā)展歷程,然后綜述了對Faster R-CNN算法的四個重要組成部分(特
    發(fā)表于 01-09 10:52 ?1191次閱讀

    手把手教你使用LabVIEW實現(xiàn)Mask R-CNN圖像實例分割(含源碼)

    使用LabVIEW實現(xiàn)Mask R-CNN圖像實例分割
    的頭像 發(fā)表于 03-21 13:39 ?2362次閱讀
    手把手教你使用LabVIEW實現(xiàn)Mask <b class='flag-5'>R-CNN</b>圖像實例分割(含源碼)

    深度卷積神經(jīng)網(wǎng)絡(luò)在目標檢測中的進展

    深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)在圖像分類和識別上取得了很顯著的提高。回顧從2014到2016這兩年多的時間,先后涌現(xiàn)出了R-CNN,F(xiàn)ast R-CNN, Faster R-CNN, I
    發(fā)表于 11-16 01:41 ?5219次閱讀
    深度卷積神經(jīng)網(wǎng)絡(luò)在目標檢測中的進展

    介紹目標檢測工具Faster R-CNN,包括它的構(gòu)造及實現(xiàn)原理

    在本篇文章中,公司的研究人員介紹了他們在研究過程中所使用的先進目標檢測工具Faster R-CNN,包括它的構(gòu)造及實現(xiàn)原理。
    的頭像 發(fā)表于 01-27 11:49 ?1.9w次閱讀
    介紹目標檢測工具<b class='flag-5'>Faster</b> <b class='flag-5'>R-CNN</b>,包括它的構(gòu)造及實現(xiàn)原理

    Mask R-CNN:自動從視頻中制作目標物體的GIF動圖

    用深度學習模型——Mask R-CNN,自動從視頻中制作目標物體的GIF動圖。
    的頭像 發(fā)表于 02-03 14:19 ?1.1w次閱讀

    什么是Mask R-CNN?Mask R-CNN的工作原理

    它的概念很簡單:對于每個目標對象,Faster R-CNN都有兩個輸出,一是分類標簽,二是候選窗口;為了分割目標像素,我們可以在前兩個輸出的基礎(chǔ)上增加第三個輸出——指示對象在窗口中像素位置的二進制
    的頭像 發(fā)表于 07-20 08:53 ?6.8w次閱讀

    引入Mask R-CNN思想通過語義分割進行任意形狀文本檢測與識別

    網(wǎng)絡(luò)架構(gòu)由四部分組成,骨干網(wǎng)feature pyramid network (FPN) ,文本候選區(qū)域生成網(wǎng)絡(luò)region proposal network (RPN) ,文本包圍盒回歸網(wǎng)絡(luò)Fast R-CNN ,文本實例分割與字符分割網(wǎng)絡(luò)mask branch。
    的頭像 發(fā)表于 08-07 14:24 ?1.4w次閱讀

    手把手教你操作Faster R-CNN和Mask R-CNN

    Mask R-CNN是承繼于Faster R-CNN,Mask R-CNN只是在Faster R-CNN
    的頭像 發(fā)表于 04-04 16:32 ?1.3w次閱讀

    一種新的帶有不確定性的邊界框回歸損失,可用于學習更準確的目標定位

    目標檢測是一種多任務(wù)學習問題,包含目標定位和目標分類。當前最佳的目標檢測器(比如 Faster RCNN、Cascade R-CNN 和 Mask R-CNN)都依靠邊界框回歸來定位目標。
    的頭像 發(fā)表于 04-23 16:38 ?6466次閱讀
    一種新的帶有不確定性的邊界框回歸損失,可用于學習更準確的目標定位

    基于改進Faster R-CNN的目標檢測方法

    為提高小尺度行人檢測的準確性,提出一種基于改進 Faster r-CNN的目標檢測方法。通過引入基于雙線性插值的對齊池化層,避免感興趣區(qū)域池化過程中兩次量化操作導(dǎo)致的位置偏差,同時設(shè)計基于級聯(lián)的多層
    發(fā)表于 03-23 14:52 ?3次下載
    基于改進<b class='flag-5'>Faster</b> <b class='flag-5'>R-CNN</b>的目標檢測方法

    基于Mask R-CNN的遙感圖像處理技術(shù)綜述

    較為密集,且容易與港口混合。當前對艦船檢測的輸岀結(jié)果主要是檢測框,缺少對艦船掩碼的輸岀,使得無法全面分析岀模型存在的不足;冋時,由于遙感圖像中的艦船??棵芗菀桩a(chǎn)生漏檢問題。為解決上述問題,利用 Mask r-cnn對艦
    發(fā)表于 05-08 16:39 ?3次下載

    用于實例分割的Mask R-CNN框架

    我們的方法稱為 Mask R-CNN,擴展了 Faster RCNN ,方法是在每個感興趣區(qū)域 (RoI) 上添加一個用于預(yù)測分割掩碼的分支,與用于分類和邊界框回歸的現(xiàn)有分支并行(圖 1)。掩碼分支
    的頭像 發(fā)表于 04-13 10:40 ?2669次閱讀

    深入了解目標檢測深度學習算法的技術(shù)細節(jié)

    本文將討論目標檢測的基本方法(窮盡搜索、R-CNN、Fast R-CNNFaster R-CNN),并嘗試理解每個模型的技術(shù)細節(jié)。為了讓經(jīng)驗水平各不相同的讀者都能夠理解,文章不會使用
    發(fā)表于 01-05 16:27 ?463次閱讀

    PyTorch教程14.8之基于區(qū)域的CNN(R-CNN)

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程14.8之基于區(qū)域的CNN(R-CNN).pdf》資料免費下載
    發(fā)表于 06-05 11:09 ?0次下載
    PyTorch教程14.8之基于區(qū)域的<b class='flag-5'>CNN</b>(<b class='flag-5'>R-CNN</b>)

    PyTorch教程-14.8。基于區(qū)域的 CNN (R-CNN)

    )、faster R-CNN ( Ren et al. , 2015 )和掩模 R-CNN ( He等,2017)。由于篇幅有限,我們將只關(guān)注這些模型的設(shè)計。 14.8.1。R
    的頭像 發(fā)表于 06-05 15:44 ?667次閱讀
    PyTorch教程-14.8?;趨^(qū)域的 <b class='flag-5'>CNN</b> (<b class='flag-5'>R-CNN</b>)