0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

何愷明等人再出重磅新作:分割任務(wù)的TensorMask框架

電子工程師 ? 來源:lp ? 2019-04-04 17:21 ? 次閱讀

看到今天要給大家介紹的論文,也許現(xiàn)在大家已經(jīng)非常熟悉 Ross Girshic、Piotr Dollár 還有我們的大神何愷明的三人組了。沒錯,今天這篇重磅新作還是他們的產(chǎn)出,營長感覺剛介紹他們的新作好像沒多久?。∠胍汾s大神腳步,確實是不能懈怠?。?/p>

不過這次一作是來自 FAIR 的陳鑫磊博士,雖然和三人組合比起來,一作陳鑫磊還沒有那么被大家所熟知,不過其實力也是不容小覷的(畢竟后面跟著三個實力響當當?shù)娜宋铮I長在陳鑫磊的個人主頁上看到他的學(xué)習(xí)經(jīng)歷和研究成果,也是忍不住點贊。陳鑫磊在浙江大學(xué)國家重點實驗室 CAD&CG實驗室學(xué)習(xí)時,師從蔡登教授,隨后在 CMU 攻讀博士學(xué)位,現(xiàn)任職于 FAIR,畢業(yè)前曾在 Google Cloud 李飛飛和李佳組內(nèi)實習(xí)。在博士研究期間,每年和導(dǎo)師 Abhinav Gupta 教授都有論文發(fā)表在 AAAI、CVPR、ECCV、ICCV 等頂會上,考慮篇幅,營長就從每年成果中選一篇列舉出來,大家可以前往陳鑫磊的個人主頁中可以看到全部作品。

2013-2018 年間的主要作品:

[1]、Xinlei Chen, Li-Jia Li, Li Fei-Fei, Abhinav Gupta.Iterative Visual Reasoning Beyond Convolutions. The 31st IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018.Spotlight

[2]、Xinlei Chen, Abhinav Gupta.Spatial Memory for Context Reasoning in Object Detection. The 15th International Conference on Computer Vision(ICCV), 2017

[3]、Gunnar A. Sigurdsson,Xinlei Chen, Abhinav Gupta.Learning Visual Storylines with Skipping Recurrent Neural Networks. The 14th European Conference on Computer Vision(ECCV), 2016

[4]、Xinlei Chen, Abhinav Gupta.Webly Supervised Learning of Convolutional Networks. The 15th International Conference on Computer Vision(ICCV), 2015.Oral

[5]、Xinlei Chen, C. Lawrence Zitnick.Mind's Eye: A Recurrent Visual Representation for Image Caption Generation. The 28th IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2015

[6]、Xinlei Chen, Alan Ritter, Abhinav Gupta, Tom Mitchell.Sense Discovery via Co-Clustering on Images and Text. The 28th IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2015.

[7]、Xinlei Chen, Abhinav Shrivastava, Abhinav Gupta.Enriching Visual Knowledge Bases via Object Discovery and Segmentation. The 27th IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2014

[8]、Xinlei Chen, Abhinav Shrivastava, Abhinav Gupta.NEIL: Extracting Visual Knowledge from Web Data. The 14th International Conference on Computer Vision(ICCV), 2013.Oral.

這幾個人從出道至今,都有非常多的佳作,出產(chǎn)率也非常高,最近大家還在重談去年三人組合的論文《Rethinking ImageNet Pre-training》,今天就有了這篇在密集掩碼預(yù)測新突破:《TensorMask: A Foundation for Dense Object Segmentation》,大神們簡直就是快要承包整個 CV 界了!

“CV男團”四人的個人主頁(一到四作的順序):

http://xinleic.xyz/#

http://www.rossgirshick.info/

http://kaiminghe.com/

http://pdollar.github.io/

接下來,營長就為大家?guī)怼癈V男團”這篇最新力作的初解讀,因為論文中涉及很多與 TensorMask 框架相關(guān)的專業(yè)術(shù)語,函數(shù)定義等,還需要大家下來細細研究,感興趣的同學(xué)可以從下面的論文地址里下載論文進一步學(xué)習(xí),也歡迎大家在后臺給我們留言,發(fā)表你的感想。

論文解讀

摘要

在目標檢測任務(wù)中,采用滑窗方式生成目標的檢測框是一種非常常用的方法。而在實例分割任務(wù)中,比較主流的圖像分割方法是首先檢測目標邊界框,然后進行裁剪和目標分割,如 Mask RCNN。在這篇工作中,我們研究了密集滑窗實例分割(dense sliding-window instance segmentation)的模式,發(fā)現(xiàn)與其他的密集預(yù)測任務(wù)如語義分割,目標檢測不同,實例分割滑窗在每個空間位置的輸出具有自己空間維度的幾何結(jié)構(gòu)。為了形式化這一點,我們提出了一個通用的框架 TensorMask 來獲得這種幾何結(jié)構(gòu)。

我們通過張量視圖展示了相較于忽略這種結(jié)構(gòu)的 baseline 方法,它可以有一個大的效果提升,甚至比肩于 Mask R-CNN。這樣的實驗結(jié)果足以說明TensorMask 為密集掩碼預(yù)測任務(wù)提供了一個新的理解方向,并可以作為該領(lǐng)域新的基礎(chǔ)方法。

引言

滑窗范式(在一張圖的每個滑動窗口里面去尋找目標)是視覺任務(wù)里面最早且非常成功的方法,并且可以很自然的和卷積網(wǎng)絡(luò)聯(lián)系起來。雖然像 RCNN 系列方法需要在滑窗的方法上再進行精修,但是像 SSD、RetinaNet 的方法就是直接利用滑窗預(yù)測。在目標檢測里面非常受歡迎的方法,在實例分割任務(wù)中卻沒得到足夠的關(guān)注。因此本文的工作就是來填補該缺失。本文主要的 insight 就是定義密集掩碼的表示方式,并且在神經(jīng)網(wǎng)絡(luò)中有效的實現(xiàn)它。與低維、尺度無關(guān)的檢測框不同,分割掩碼需要一種更具有結(jié)構(gòu)化的表示方式。因此,本文在空域上,采用結(jié)構(gòu)化的 4 維張量定義了掩碼的表示方式,并提出了一個基于滑窗方法的密集實例分割框架——TensorMask。在 4 維張量(V,U,H,W)中,H 和 W 表示目標的位置,而 V 和 U 表示相關(guān)掩碼的位置。與僅直接在通道上加一個掩碼分支的方法不同,這種方法是具有幾何意義的,并且可以直接在(V,U)張量上進行坐標轉(zhuǎn)換,尺度縮放等操作。在 TensorMask 框架中,作者還順手開發(fā)了一個張量尺度金字塔(tensor bipyramid),用于 4 維的尺度縮放。如下公式所示,其中 K 就是尺度。

? ? ?

掩碼的張量表示

TensorMask 框架的主要想法就是利用結(jié)構(gòu)化的高維張量去表示密集的滑動窗口。在理解這樣的一個框架時,需要了解幾個重要的概念。

單位長度(Unit of Length):在不同的軸和尺度上有不同的單位長度,且 HW 和 VU 的單位長度可以不相等。

? ? ?和 ? ? ? ? ? ? ?分別表示其單位長度。

自然表示(Natural Representation):在點(y,x)處的滑窗內(nèi),某點的掩碼值表示,如下截圖所示,其中 alpha 表示 VU 和 HW 的單位長度比率。

對齊表示(Aligned Representation):由于單位長度中 stride 的存在,自然表示存在著像素偏移的問題,因此這里有一個同 ROIAlign 相似的想法,需要從張量的角度定義一個像素級的表示。

坐標轉(zhuǎn)換:用于自然表示和對齊表示間的轉(zhuǎn)換,論文給出了兩種情況下的轉(zhuǎn)換公式,一種是簡化版的( ? ? ?),一種是一般版的(就是任意的單位長度)。

上采樣轉(zhuǎn)換(Upscaling Transformation):下圖就是上采樣轉(zhuǎn)換的操作集合。實驗證明它可以在不增加通道數(shù)的情況下,有效的生成高分辨率的掩碼。

張量尺度金字塔(Tensor Bipyramid):由于掩碼存在尺度問題,它需要隨目標的大小而進行縮放,為了保持恒定的分辨率密度,提出了這種基于尺度來調(diào)整掩碼像素數(shù)量的方法。

TensorMask結(jié)構(gòu)

基于 TensorMask 表示的模型,有一個采用滑窗的掩碼預(yù)測分支和一個類似于檢測框回歸的分類分支。該結(jié)構(gòu)不需要增加檢測框的分支。掩碼預(yù)測分支可以采用卷積的 backbone,比如 ResNet50。因此,論文提出了多個基礎(chǔ)(baseline)分支和張量尺度金字塔分支,幫助使用者快速上手 TensorMask。需要指出的是,張量尺度金字塔分支是最有效的一個模型。在訓(xùn)練時,作者采用 DeepMask 來幫助標記數(shù)據(jù),以及 focal loss 等等。

實驗

為了說明各分支或者操作的作用,論文做了大量的消融實驗來進行論證。具體結(jié)果見下圖表格的數(shù)據(jù)以及與 Mask-RCNN 可視化的對比。實驗結(jié)果證明,TensorMask 能夠定性定量的比肩 MaskR-CNN。

該項工作將滑窗方法與實例分割任務(wù)直接聯(lián)系了起來,能夠幫助該領(lǐng)域的研究者對實例分割有新的理解,期待代碼早日開源。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4771

    瀏覽量

    100772
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    403

    瀏覽量

    17489
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3349

    瀏覽量

    42501

原文標題:何愷明等人提TensorMask框架:比肩Mask R-CNN,4D張量預(yù)測新突破

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    畫面分割器怎么調(diào)試

    畫面分割器,通常指的是視頻畫面分割器,它是一種可以將一個視頻信號分割成多個小畫面的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、視頻會議、多畫面顯示等場景。調(diào)試畫面分割器是一個技術(shù)性很強的工作,需
    的頭像 發(fā)表于 10-17 09:32 ?400次閱讀

    畫面分割器怎么連接

    畫面分割器,也稱為視頻分割器或多畫面處理器,是一種可以將多個視頻信號源分割成單個畫面或多個畫面顯示在單個監(jiān)視器上的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、視頻會議、多媒體展示等領(lǐng)域。 一、畫面分割
    的頭像 發(fā)表于 10-17 09:29 ?321次閱讀

    畫面分割器和視頻分配器有區(qū)別

    畫面分割器和視頻分配器是兩種不同的視頻處理設(shè)備,它們在視頻監(jiān)控系統(tǒng)中扮演著不同的角色。 1. 畫面分割器 畫面分割器,又稱為視頻分割器或多畫面處理器,是一種可以將多個視頻信號合并到一個
    的頭像 發(fā)表于 10-17 09:27 ?429次閱讀

    畫面分割器有幾路主輸出

    畫面分割器,也稱為視頻分割器或多畫面處理器,是一種可以將一個視頻信號分割成多個獨立視頻畫面的設(shè)備。這種設(shè)備廣泛應(yīng)用于監(jiān)控系統(tǒng)、視頻會議、多媒體展示等領(lǐng)域,能夠?qū)⒍鄠€攝像頭的信號整合到一個顯示設(shè)備上
    的頭像 發(fā)表于 10-17 09:24 ?342次閱讀

    圖像語義分割的實用性是什么

    圖像語義分割是一種重要的計算機視覺任務(wù),它旨在將圖像中的每個像素分配到相應(yīng)的語義類別中。這項技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動駕駛、醫(yī)學(xué)圖像分析、機器人導(dǎo)航等。 一、圖像語義分割的基本原理 1.1
    的頭像 發(fā)表于 07-17 09:56 ?432次閱讀

    圖像分割和語義分割的區(qū)別與聯(lián)系

    圖像分割和語義分割是計算機視覺領(lǐng)域中兩個重要的概念,它們在圖像處理和分析中發(fā)揮著關(guān)鍵作用。 1. 圖像分割簡介 圖像分割是將圖像劃分為多個區(qū)域或?qū)ο蟮倪^程。這些區(qū)域或?qū)ο缶哂邢嗨频膶傩?/div>
    的頭像 發(fā)表于 07-17 09:55 ?955次閱讀

    圖像分割與目標檢測的區(qū)別是什么

    圖像分割與目標檢測是計算機視覺領(lǐng)域的兩個重要任務(wù),它們在許多應(yīng)用場景中都發(fā)揮著關(guān)鍵作用。然而,盡管它們在某些方面有相似之處,但它們的目標、方法和應(yīng)用場景有很大的不同。本文將介紹圖像分割與目標檢測
    的頭像 發(fā)表于 07-17 09:53 ?1336次閱讀

    機器學(xué)習(xí)中的數(shù)據(jù)分割方法

    在機器學(xué)習(xí)中,數(shù)據(jù)分割是一項至關(guān)重要的任務(wù),它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器學(xué)習(xí)中數(shù)據(jù)分割的方法,包括常見的分割方法、各自的優(yōu)缺點、
    的頭像 發(fā)表于 07-10 16:10 ?1794次閱讀

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計算機視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個具有特定語義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心模型,在圖像分割與語義
    的頭像 發(fā)表于 07-09 11:51 ?903次閱讀

    nlp自然語言處理框架有哪些

    許多優(yōu)秀的框架和工具,這些框架和工具為研究人員和開發(fā)者提供了強大的支持。以下是一些主要的NLP框架和工具的介紹: NLTK(Natural Language Toolkit) NLTK是Python編程
    的頭像 發(fā)表于 07-09 10:28 ?565次閱讀

    機器人視覺技術(shù)中常見的圖像分割方法

    、場景理解、導(dǎo)航和交互等任務(wù)至關(guān)重要。以下是一些常見的圖像分割方法: 閾值分割法(Thresholding) 閾值分割法是一種基于像素強度的簡單圖像
    的頭像 發(fā)表于 07-09 09:31 ?702次閱讀

    機器人視覺技術(shù)中圖像分割方法有哪些

    機器人視覺技術(shù)是人工智能領(lǐng)域的一個重要分支,它涉及到圖像處理、模式識別、機器學(xué)習(xí)等多個學(xué)科。圖像分割是機器人視覺技術(shù)中的一個重要環(huán)節(jié),它的目標是從一幅圖像中將目標物體與背景分離出來,以便于后續(xù)的處理
    的頭像 發(fā)表于 07-04 11:34 ?990次閱讀

    “仲農(nóng)業(yè)工程學(xué)院與深圳信盈達科技有限公司”揭牌儀式舉行

    5月10日下午,“仲農(nóng)業(yè)工程學(xué)院與深圳信盈達科技有限公司”揭牌儀式在仲農(nóng)業(yè)工程學(xué)院劉宇新樓會議室舉行。參加揭牌儀式的嘉賓有深圳信盈達科技有限公司總總經(jīng)理牛樂樂,校企合作部經(jīng)理喻時坤、仲農(nóng)業(yè)工程
    的頭像 發(fā)表于 05-18 08:03 ?571次閱讀
    “仲<b class='flag-5'>愷</b>農(nóng)業(yè)工程學(xué)院與深圳信盈達科技有限公司”揭牌儀式舉行

    新作的一個項目UI框架分享

    如題
    發(fā)表于 03-15 17:07

    任務(wù)調(diào)度系統(tǒng)設(shè)計的核心邏輯

    Redis的讀寫性能極好,分布式鎖也比Quartz數(shù)據(jù)庫行級鎖更輕量級。當然Redis鎖也可以替換成Zookeeper鎖,也是同樣的機制。 在小型項目中,使用:定時任務(wù)框架(Quartz/Spring Schedule)和 分布式鎖(redis/zookeeper)
    的頭像 發(fā)表于 01-02 15:09 ?888次閱讀
    <b class='flag-5'>任務(wù)</b>調(diào)度系統(tǒng)設(shè)計的核心邏輯