0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

FAIR何愷明、Ross等人最新提出實(shí)例分割的通用框架TensorMask

DPVg_AI_era ? 來(lái)源:lp ? 2019-04-08 12:00 ? 次閱讀

FAIR何愷明、Ross等人最新提出實(shí)例分割的通用框架TensorMask,首次在定性和定量上都接近于 Mask R-CNN 框架,為探索密集實(shí)例分割方法提供基礎(chǔ)。

現(xiàn)代實(shí)例分割方法主要是先檢測(cè)對(duì)象邊界框,然后進(jìn)行裁剪和分割,Mask R-CNN是目前這類方法中最優(yōu)秀的。

近日,來(lái)自FAIR的陳鑫磊、Ross Girshick、何愷明、Piotr Dollar等人發(fā)表一篇新論文“TensorMask: A Foundation for Dense Object Segmentation”,從一個(gè)新的方向解決實(shí)例分割問(wèn)題,并提出了一個(gè)名為T(mén)ensorMask的通用框架。

論文地址:

https://arxiv.org/pdf/1903.12174.pdf

作者表示,TensorMask達(dá)到了與Mask R-CNN相當(dāng)?shù)慕Y(jié)果,有助于更全面地理解這項(xiàng)任務(wù)。

Ross Girshick、何愷明、Piotr Dollar三人也是Mask R-CNN的作者,一作陳鑫磊博士畢業(yè)于CMU,導(dǎo)師是Tom Mitchell教授,并曾在谷歌云AI李飛飛、李佳的指導(dǎo)下實(shí)習(xí)。

TensorMask:將實(shí)例分割視為4D張量預(yù)測(cè)

在密集、規(guī)則的網(wǎng)格上生成邊界框?qū)ο箢A(yù)測(cè)的滑動(dòng)窗口目標(biāo)檢測(cè)器(sliding-window object detectors)已經(jīng)得到迅速發(fā)展,并得到了廣泛的應(yīng)用。

與此相反,現(xiàn)代的實(shí)例分割方法主要是先檢測(cè)對(duì)象邊界框,然后進(jìn)行裁剪和分割,Mask R-CNN推廣了這種方法。

在這項(xiàng)工作中,我們研究了密集滑動(dòng)窗口實(shí)例分割(dense sliding-window instance segmentation)的范例,令人驚訝的是,這方面的研究十分不足。

我們的核心發(fā)現(xiàn)是,這項(xiàng)任務(wù)與其他的密集預(yù)測(cè)任務(wù)(如語(yǔ)義分割或邊界框?qū)ο髾z測(cè))有本質(zhì)的不同,因?yàn)槊總€(gè)空間位置的輸出本身就是一個(gè)幾何結(jié)構(gòu),具有自己的空間維度。

為了形式化地說(shuō)明這一點(diǎn),我們將密集實(shí)例分割視為一個(gè)4D張量(4D tensors)的預(yù)測(cè)任務(wù),并提出了一個(gè)名為T(mén)ensorMask的通用框架,該框架顯式地捕獲這種幾何圖形,并支持對(duì)4D tensors使用新的操作符。

圖1:TensorMask的輸出。我們將密集實(shí)例分割作為一種基于結(jié)構(gòu)化4D張量的預(yù)測(cè)任務(wù)。除了獲得具有競(jìng)爭(zhēng)力的定量結(jié)果,TensorMask還獲得了定性上合理的結(jié)果。圖中小的和大的物體都被很好地描繪出來(lái),并且,重疊的物體也被正確地處理了。

我們證明了tensor這種想法可以相比baseline獲得較大的增益,并且可以得到與Mask R-CNN相當(dāng)?shù)慕Y(jié)果。這些結(jié)果表明,TensorMask可以作為密集掩碼預(yù)測(cè)的新進(jìn)展的基礎(chǔ),有助于更全面地理解這項(xiàng)任務(wù)。我們將發(fā)布本研究的代碼。

彌補(bǔ)差距:實(shí)例分割中的密集方法

滑動(dòng)窗口(sliding-window)范例——通過(guò)查看放置在一組密集圖像位置上的每個(gè)窗口來(lái)查找對(duì)象——是計(jì)算機(jī)視覺(jué)中最早、也是最成功的概念之一,并且這個(gè)概念自然地與卷及網(wǎng)絡(luò)相關(guān)。

然而,盡管目前性能最好的對(duì)象檢測(cè)器依賴于滑動(dòng)窗口預(yù)測(cè)來(lái)生成初始候選區(qū)域,但獲得更準(zhǔn)確的預(yù)測(cè)主要來(lái)自對(duì)這些候選區(qū)域進(jìn)行細(xì)化的階段,如Faster R-CNN和Mask R-CNN,分別用于邊界框目標(biāo)檢測(cè)和實(shí)例分割。這類方法已經(jīng)主導(dǎo)了COCO目標(biāo)檢測(cè)挑戰(zhàn)賽。

近年來(lái),諸如SSD和RetinaNet之類的邊界框目標(biāo)檢測(cè)器,避開(kāi)了“細(xì)化”這個(gè)步驟,專注于直接的滑動(dòng)窗口預(yù)測(cè),已經(jīng)有了復(fù)蘇的趨勢(shì),并顯示出有希望的結(jié)果。

相比之下,該領(lǐng)域在密集滑動(dòng)窗口實(shí)例分割方面并沒(méi)有取得同等的進(jìn)展;對(duì)于mask prediction,沒(méi)有類似于SSD / RetinaNet這樣的直接、密集的方法。

為什么密集的方法在邊界框檢測(cè)方面進(jìn)展迅速,而在實(shí)例分割方面卻完全缺失?這是一個(gè)基本科學(xué)上的問(wèn)題。這項(xiàng)工作的目標(biāo)就是彌補(bǔ)這一差距,并為探索密集實(shí)例分割方法提供基礎(chǔ)。

我們的主要觀點(diǎn)是,定義dense mask representations的核心概念,以及這些概念在神經(jīng)網(wǎng)絡(luò)中的有效實(shí)現(xiàn),都是缺乏的。

與邊界框不同,邊界框具有固定的低維表示而不考慮比例,分割掩碼(segmentation masks)可以從更豐富、更結(jié)構(gòu)化的表示中獲益。例如,每個(gè)mask本身是一個(gè)2D空間映射,較大對(duì)象的mask可以受益于較大空間映射的使用。為dense masks開(kāi)發(fā)有效的表示是實(shí)現(xiàn)密集實(shí)例分割的關(guān)鍵步驟。

為了解決這個(gè)問(wèn)題,我們定義了一組用高維張量表示mask的核心概念,這些概念允許探索用于dense mask prediction的新穎網(wǎng)絡(luò)架構(gòu)。為了證明所提出的表示的優(yōu)點(diǎn),我們提出了幾個(gè)這樣的網(wǎng)絡(luò)并進(jìn)行了實(shí)驗(yàn)。

我們的框架稱為T(mén)ensorMask,它建立了第一個(gè)密集滑動(dòng)窗口實(shí)例分割系統(tǒng),其結(jié)果接近于Mask R-CNN。

左:自然表示。右:對(duì)齊表示(Aligned representation)。

TensorMask表示的核心想法是使用結(jié)構(gòu)化的4D tensors表示空間域上的mask。

與以前的面向通道的方法不同,我們建議利用形狀(V, U, H, W)的4D tensors,其中(H, W)表示目標(biāo)位置,(V, U)表示對(duì)應(yīng)的mask的位置,它們都是幾何子張量,也就是說(shuō),它們的軸有明確定義的units和關(guān)于圖像的幾何意義。

這種從非結(jié)構(gòu)化通道軸上的encoding masks到使用結(jié)構(gòu)化幾何子張量的視角轉(zhuǎn)變,使得定義新的操作和網(wǎng)絡(luò)架構(gòu)成為可能。這些網(wǎng)絡(luò)可以以幾何上有意義的方式直接作用于(V, U)子張量,包括坐標(biāo)變換、up-/downscaling和金字塔的使用。

在TensorMask框架的支持下,我們?cè)谝粋€(gè)4D tensors的標(biāo)度索引列表上建立了一個(gè)金字塔結(jié)構(gòu),我們稱之為張量雙金字塔( tensor bipyramid)。與特征金字塔類似,tensor bipyramid是一個(gè)多尺度特征映射列表,它包含一個(gè)形狀為2kV、2ku、12kh、12kw的4D張量列表,其中k≥0個(gè)索引尺度。這種結(jié)構(gòu)在(H, W)和(V, U)幾何子張量上都呈金字塔形狀,但方向相反。這種設(shè)計(jì)捕捉了大對(duì)象具有粗糙空間定位的高分辨率mask(大k)和小對(duì)象具有精細(xì)空間定位的低分辨率mask(小k)的理想特性。

feature pyramid和tensor bipyramid的比較

我們將這些組件組合成一個(gè)網(wǎng)絡(luò)骨干和訓(xùn)練程序,類似RetinaNet,其中我們的dense mask predictor擴(kuò)展了原始的密集邊界框預(yù)測(cè)器。

通過(guò)詳細(xì)的消融實(shí)驗(yàn),我們?cè)u(píng)估了TensorMask框架的有效性,并證明了明確捕捉該任務(wù)的幾何結(jié)構(gòu)的重要性。最后,我們展示了TensorMask與對(duì)應(yīng)的Mask R-CNN產(chǎn)生了相似的結(jié)果(見(jiàn)圖1和圖2)。

TensorMask的架構(gòu)

TensorMask框架的核心思想是使用結(jié)構(gòu)化的高維張量來(lái)表示一組密集滑動(dòng)窗口中的圖像內(nèi)容(例如masks)。

圖2:使用ResNet-101-FPN骨干的TensorMask和Mask R-CNN的示例結(jié)果(與圖6中使用的Mask R-CNN的圖像相同)。結(jié)果在定量和質(zhì)量上都很相似,表明密集滑動(dòng)窗口范式確實(shí)可以有效地用于實(shí)例分割任務(wù)。請(qǐng)讀者猜猜哪些結(jié)果是TensorMask生成的(答案見(jiàn)文末)。

TensorMask架構(gòu)

我們已經(jīng)展示了采用TensorMask representations的模型。這些模型有一個(gè)在滑動(dòng)窗口中生成masks的mask prediction head,以及一個(gè)用于預(yù)測(cè)對(duì)象類別的classification head,類似于滑動(dòng)窗口目標(biāo)檢測(cè)器中的box regression和classification heads。

實(shí)驗(yàn)和結(jié)果

我們報(bào)告了COCO實(shí)例分割的結(jié)果。所有的模型都在~118k train2017圖像上進(jìn)行訓(xùn)練,并在5k val2017圖像上進(jìn)行測(cè)試。最終結(jié)果在test-dev上。我們使用COCO mask的平均精度(用AP表示)。box AP用APbb表示。

TensorMask表示

首先,我們研究了使用V =U=15和ResNet-50-FPN骨干的mask的各種張量表示。表2報(bào)告了定量結(jié)果,圖2和圖9顯示了定性比較。

表2

與Mask R-CNN的比較

表3總結(jié)了test-dev上最好的TensorMask模型,并將其與當(dāng)前用于COCO實(shí)例分割的主流方法Mask RCNN進(jìn)行了比較。

表3

如上表所示,最好的TensorMask在test-dev上達(dá)到了35.5 mask AP,接近于mask R-CNN的36.8。

在ResNet-101中,TensorMask實(shí)現(xiàn)了37.3 mask AP,與mask R-CNN相比只有1.0 AP差距。

這些結(jié)果表明,密集滑動(dòng)窗口方法可以縮小與“先檢測(cè)后分割”方法的差距。定性結(jié)果如圖2、10、11所示。

結(jié)論

TensorMask是一個(gè)dense sliding-window實(shí)例分割框架,首次在定性和定量上都接近于Mask R-CNN框架。TensorMask為實(shí)例分割研究建立了一個(gè)概念互補(bǔ)的方向。

(圖2答案:第一行是Mask R-CNN的結(jié)果,第二行是TensorMask的結(jié)果。)

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 檢測(cè)器
    +關(guān)注

    關(guān)注

    1

    文章

    865

    瀏覽量

    47714
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4773

    瀏覽量

    100861
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31022

    瀏覽量

    269360

原文標(biāo)題:何愷明等最新論文:實(shí)例分割全新方法TensorMask,效果比肩 Mask R-CNN

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于暗原色先驗(yàn)的單幅圖像去霧算法

    這是去霧算法的翻譯版,個(gè)人翻譯,原汁原味,簡(jiǎn)單易懂。
    發(fā)表于 11-19 15:05 ?10次下載

    圖像分割基礎(chǔ)算法及實(shí)現(xiàn)實(shí)例

    圖像分割就是把圖像分成若干個(gè)特定的、具有獨(dú)特性質(zhì)的區(qū)域并提出感興趣目標(biāo)的技術(shù)和過(guò)程。它是由圖像處理到圖像分析的關(guān)鍵步驟?,F(xiàn)有的圖像分割方法主要分以下幾類:基于閾值的分割方法、基于區(qū)域的
    發(fā)表于 12-18 18:19 ?9413次閱讀
    圖像<b class='flag-5'>分割</b>基礎(chǔ)算法及實(shí)現(xiàn)<b class='flag-5'>實(shí)例</b>

    、Ross Girshick等大神深夜扔出“炸彈”:ImageNet預(yù)訓(xùn)練并非必須

    ImageNet預(yù)訓(xùn)練方式加快了收斂速度,特別是在訓(xùn)練早期,但隨機(jī)初始化訓(xùn)練可以在訓(xùn)練一段時(shí)間后趕上來(lái)??紤]到前者還要進(jìn)行模型的微調(diào),訓(xùn)練總時(shí)間二者大體相當(dāng)。由于在研究目標(biāo)任務(wù)時(shí)經(jīng)常忽略ImageNet預(yù)訓(xùn)練的成本,因此采用短期訓(xùn)練進(jìn)行的“對(duì)照”比較可能會(huì)掩蓋隨機(jī)初始化訓(xùn)練的真實(shí)表現(xiàn)。
    的頭像 發(fā)表于 11-24 10:09 ?6682次閱讀

    FAIR團(tuán)隊(duì)最新論文提出“全景FPN”,聚焦于圖像的全景分割任務(wù)

    特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network):首先簡(jiǎn)要回顧一下FPN。FPN采用一個(gè)具有多空間分辨率特征的標(biāo)準(zhǔn)網(wǎng)絡(luò)(如ResNet),并添加一個(gè)具有橫向連接的自上而下的通道,如圖1a所示。自上而下的路徑從網(wǎng)絡(luò)的最深層開(kāi)始,并逐步向上采樣,同時(shí)添加自底向上路徑的高分辨率特性的轉(zhuǎn)換版本。FPN生成一個(gè)金字塔,通常具有1/32到1/4的分辨率,其中每個(gè)金字塔級(jí)別具有相同的通道維度(默認(rèn)是256)。
    的頭像 發(fā)表于 01-11 08:57 ?6191次閱讀

    李飛飛等人提出Auto-DeepLab:自動(dòng)搜索圖像語(yǔ)義分割架構(gòu)

    簡(jiǎn)單地移植圖像分類的方法不足以進(jìn)行語(yǔ)義分割。在圖像分類中,NAS 通常使用從低分辨率圖像到高分辨率圖像的遷移學(xué)習(xí) [92],而語(yǔ)義分割的最佳架構(gòu)必須在高分辨率圖像上運(yùn)行。這表明,本研究需要:(1
    的頭像 發(fā)表于 01-15 13:51 ?3783次閱讀

    等人再出重磅新作:分割任務(wù)的TensorMask框架

    ResNet50。因此,論文提出了多個(gè)基礎(chǔ)(baseline)分支和張量尺度金字塔分支,幫助使用者快速上手 TensorMask。需要指出的是,張量尺度金字塔分支是最有效的一個(gè)模型。在訓(xùn)練時(shí),作者采用 DeepMask 來(lái)幫助標(biāo)記數(shù)據(jù),以及 focal loss 等等。
    的頭像 發(fā)表于 04-04 17:21 ?3978次閱讀

    FAIR團(tuán)隊(duì)近日發(fā)表神經(jīng)結(jié)構(gòu)搜索NAS方面的最新力作

    在這一趨勢(shì)的推進(jìn)中,神經(jīng)結(jié)構(gòu)搜索 (neural architecture search, NAS) 已經(jīng)成為聯(lián)合搜索連接模式和執(zhí)行操作方式的一個(gè)有前景的方向。NAS 方法專注于搜索,同時(shí)隱式地依賴于一個(gè)重要但常常被忽視的組件 —— 網(wǎng)絡(luò)生成器 (network generator)。
    的頭像 發(fā)表于 04-19 14:34 ?3803次閱讀
    <b class='flag-5'>FAIR</b><b class='flag-5'>何</b><b class='flag-5'>愷</b><b class='flag-5'>明</b>團(tuán)隊(duì)近日發(fā)表神經(jīng)結(jié)構(gòu)搜索NAS方面的最新力作

    Facebook AI使用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)同時(shí)完成實(shí)例分割和語(yǔ)義分割

    這一新架構(gòu)“全景 FPN ”在 Facebook 2017 年發(fā)布的 Mask R-CNN 的基礎(chǔ)上添加了一個(gè)用于語(yǔ)義分割的分支。這一新架構(gòu)可以同時(shí)對(duì)圖像進(jìn)行實(shí)例和語(yǔ)義分割,而且精確度與只進(jìn)行
    的頭像 發(fā)表于 04-22 11:46 ?2898次閱讀
    Facebook AI使用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)同時(shí)完成<b class='flag-5'>實(shí)例</b><b class='flag-5'>分割</b>和語(yǔ)義<b class='flag-5'>分割</b>

    什么是圖像實(shí)例分割?常見(jiàn)的圖像實(shí)例分割有哪幾種?

    圖像實(shí)例分割是在對(duì)象檢測(cè)的基礎(chǔ)上進(jìn)一步細(xì)化,分離對(duì)象的前景與背景,實(shí)現(xiàn)像素級(jí)別的對(duì)象分離。
    的頭像 發(fā)表于 06-17 11:15 ?2.6w次閱讀
    什么是圖像<b class='flag-5'>實(shí)例</b><b class='flag-5'>分割</b>?常見(jiàn)的圖像<b class='flag-5'>實(shí)例</b><b class='flag-5'>分割</b>有哪幾種?

    深度學(xué)習(xí)部分監(jiān)督的實(shí)例分割環(huán)境

    實(shí)例分割的任務(wù)是將圖像中的像素分組為單個(gè)事物的實(shí)例,并用類標(biāo)簽(可計(jì)數(shù)的對(duì)象,如人、動(dòng)物、汽車等,并為每個(gè)對(duì)象分配獨(dú)特的標(biāo)識(shí)符,如 car_1 和 car_2)來(lái)標(biāo)識(shí)這些事物。實(shí)例
    的頭像 發(fā)表于 10-21 14:05 ?1839次閱讀

    用于實(shí)例分割的Mask R-CNN框架

    是應(yīng)用于每個(gè) RoI 的小型 FCN,以像素到像素的方式預(yù)測(cè)分割掩碼。鑒于 Faster R-CNN 框架,Mask R-CNN 易于實(shí)現(xiàn)和訓(xùn)練,這有助于廣泛的靈活架構(gòu)設(shè)計(jì)。此外,掩碼分支僅增加了少量
    的頭像 發(fā)表于 04-13 10:40 ?2669次閱讀

    基于X光圖片的實(shí)例分割垃圾數(shù)據(jù)集WIXRay (Waste Item X- Ray)

    提出了第一個(gè)基于 X 光圖片的、實(shí)例級(jí)別的垃圾分割數(shù)據(jù)集 (WIXRay)。數(shù)據(jù)集中包含 5,038 張 X 光圖片,共 30,845 個(gè)垃圾物品實(shí)例。對(duì)于每個(gè)
    的頭像 發(fā)表于 08-08 10:58 ?1734次閱讀

    用于弱監(jiān)督大規(guī)模點(diǎn)云語(yǔ)義分割的混合對(duì)比正則化框架

    為了解決大規(guī)模點(diǎn)云語(yǔ)義分割中的巨大標(biāo)記成本,我們提出了一種新的弱監(jiān)督環(huán)境下的混合對(duì)比正則化(HybridCR)框架,該框架與全監(jiān)督的框架相比
    的頭像 發(fā)表于 09-05 14:38 ?1374次閱讀

    基于通用的模型PADing解決三大分割任務(wù)

    數(shù)據(jù)需要消耗巨大的時(shí)間以及人力成本。為處理上述難題,零樣本學(xué)習(xí)(Zero-Shot Learning,ZSL)被提出用于分類沒(méi)有訓(xùn)練樣本的新對(duì)象,并擴(kuò)展到分割任務(wù)中,例如零樣本語(yǔ)義分割(Zero-Shot Semantic Se
    的頭像 發(fā)表于 06-26 10:39 ?551次閱讀
    基于<b class='flag-5'>通用</b>的模型PADing解決三大<b class='flag-5'>分割</b>任務(wù)

    基于SAM實(shí)現(xiàn)自動(dòng)分割遙感圖像實(shí)例

    本篇文章為大家介紹RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model (基于視覺(jué)基礎(chǔ)模型的遙感實(shí)例分割提示學(xué)習(xí)),
    的頭像 發(fā)表于 07-06 09:08 ?1882次閱讀
    基于SAM實(shí)現(xiàn)自動(dòng)<b class='flag-5'>分割</b>遙感圖像<b class='flag-5'>實(shí)例</b>