0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深度學(xué)習(xí)部分監(jiān)督的實(shí)例分割環(huán)境

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2021-10-21 14:05 ? 次閱讀

實(shí)例分割的任務(wù)是將圖像中的像素分組為單個(gè)事物的實(shí)例,并用類標(biāo)簽(可計(jì)數(shù)的對象,如人、動物、汽車等,并為每個(gè)對象分配獨(dú)特的標(biāo)識符,如 car_1 和 car_2)來標(biāo)識這些事物。實(shí)例分割作為一項(xiàng)核心的計(jì)算機(jī)視覺任務(wù),對許多下游應(yīng)用至關(guān)重要,如自動駕駛汽車、機(jī)器人醫(yī)學(xué)成像和照片編輯。

近年來,深度學(xué)習(xí) (Deep learning) 在使用 Mask R-CNN 之類的架構(gòu)解決實(shí)例分割問題方面取得了重大進(jìn)展。然而,這些方法依賴于收集大型的標(biāo)簽實(shí)例分割數(shù)據(jù)集。但不同于收集邊界框標(biāo)簽的方法,如 Extreme clicking,可以實(shí)現(xiàn)每個(gè)實(shí)例 7 秒的收集速度,收集實(shí)例分割標(biāo)簽(稱為“掩碼”)時(shí),每個(gè)實(shí)例用時(shí)可能需要高達(dá) 80 秒,該方式較高的成本,拉高了這項(xiàng)研究的門檻。另一個(gè)相關(guān)任務(wù)——泛型分割,甚至需要更多的標(biāo)簽數(shù)據(jù)。

Mask R-CNN

https://arxiv.org/abs/1703.06870

Extreme clicking

https://arxiv.org/abs/1708.02750

高達(dá) 80 秒

https://arxiv.org/abs/1405.0312

部分監(jiān)督的實(shí)例分割環(huán)境(即只用實(shí)例分割掩碼給一小部分類加標(biāo)簽,其余大部分類只用邊界框來加標(biāo)簽)這一方法有可能減少對人工創(chuàng)建的掩碼標(biāo)簽的依賴,從而大大降低開發(fā)實(shí)例分割模型的門檻。不過,這種部分監(jiān)督的方法也需要更強(qiáng)的模型泛化形式來處理訓(xùn)練時(shí)沒有遇到過的新類別,例如,只用動物掩碼進(jìn)行訓(xùn)練,然后讓模型針對建筑物或植物產(chǎn)生準(zhǔn)確的實(shí)例分割。此外,還有簡單的方法,例如訓(xùn)練一個(gè)與類無關(guān)的 Mask R-CNN,同時(shí)忽略任何沒有掩碼標(biāo)簽的實(shí)例的掩碼損失 (Loss function),但這些方法效果并不好。例如,在典型的 “VOC/Non-VOC” 基準(zhǔn)中,Mask R-CNN 針對 COCO 中 20 個(gè)類的子集(稱為“已見類”)進(jìn)行掩碼訓(xùn)練,并在其余 60 個(gè)類(稱為“未見類”)上進(jìn)行測試,一個(gè)帶有 Resnet-50 主干的典型 Mask R-CNN 在未見類上的 掩碼 mAP(即平均精度,數(shù)值越高越好)只能達(dá)到約 18%,而在全監(jiān)督時(shí),在同一集合上的掩碼 mAP 則高出很多,超過了 34%。

部分監(jiān)督的實(shí)例分割環(huán)境

https://arxiv.org/abs/1711.10370

在即將發(fā)布于 ICCV 2021 的“掩碼頭部架構(gòu)對新類別分割的驚人影響 (The surprising impact of mask-head architecture on novel class segmentation)”一文中,我們確定了 Mask R-CNN 在新類別上表現(xiàn)不佳的主要原因,并提出了兩個(gè)易于實(shí)施的修復(fù)方法(訓(xùn)練協(xié)議修復(fù);掩碼頭部架構(gòu)修復(fù)),這兩種方法協(xié)同作用,可以縮小與全監(jiān)督性能之間的差距。

掩碼頭部架構(gòu)對新類別分割的驚人影響

https://arxiv.org/abs/2104.00613

我們證明了這種方法普遍適用于裁剪-分割模型,即 Mask R-CNN 或類似 Mask R-CNN 的架構(gòu):計(jì)算整個(gè)圖像的特征表征,然后將每個(gè)實(shí)例的裁剪傳遞給第二階段的掩碼預(yù)測網(wǎng)絡(luò)(也稱為掩碼頭部網(wǎng)絡(luò))。對發(fā)現(xiàn)結(jié)果進(jìn)行整合,我們提出了基于 Mask R-CNN 的模型,該模型的掩碼 mAP 遠(yuǎn)高于目前最先進(jìn)的模型,提升了 4.7%,且無需更復(fù)雜的輔助損失函數(shù)、離線訓(xùn)練的先驗(yàn)因素或先前研究中提出的權(quán)重轉(zhuǎn)移函數(shù)。我們還開放了該模型兩個(gè)版本的代碼庫,分別稱為 Deep-MAC 和 Deep-MARC,并發(fā)布了一個(gè) colab,從而以互動方式生成掩碼,如下面的視頻演示所示。

Deep-MAC

https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/deepmac.md

Deep-MARC

https://github.com/tensorflow/models/tree/master/official/vision/beta/projects/deepmac_maskrcnn

colab

https://github.com/tensorflow/models/blob/master/research/object_detection/colab_tutorials/deepmac_colab.ipynb

模型 DeepMAC 的演示版,即使是訓(xùn)練時(shí)未見過的類,該模型也可以學(xué)習(xí)預(yù)測準(zhǔn)確的掩碼,以及給定用戶所指定的邊框。親自在 colab 中試試吧。圖片來源:Chris Briggs、維基百科和 Europeana

部分監(jiān)督環(huán)境中裁剪方法的影響

裁剪是裁剪-分割模型的一個(gè)重要步驟,通過裁剪特征圖以及對應(yīng)每個(gè)實(shí)例的邊界框的實(shí)際掩碼來訓(xùn)練 Mask R-CNN。將這些裁剪過的特征傳遞給另一個(gè)神經(jīng)網(wǎng)絡(luò)(稱為掩碼頭部網(wǎng)絡(luò)),該網(wǎng)絡(luò)計(jì)算出最終的掩碼預(yù)測,然后將其與掩碼損失函數(shù)中的實(shí)際裁剪進(jìn)行比較。裁剪有兩種選擇:(1) 直接對實(shí)例的實(shí)際邊界框進(jìn)行裁剪, (2) 對模型預(yù)測的邊界框(稱為建議)進(jìn)行裁剪。在測試時(shí)始終通過建議來執(zhí)行裁剪,因?yàn)橐僭O(shè)實(shí)際邊界框不可用。

“對實(shí)際邊界框的裁剪”對比“訓(xùn)練過程中對模型預(yù)測的建議裁剪”。標(biāo)準(zhǔn) Mask R-CNN 實(shí)現(xiàn)使用上述兩種類型的裁剪,但我們已經(jīng)證明,只對實(shí)際邊界框進(jìn)行裁剪在新類別上表現(xiàn)出顯著的性能優(yōu)勢

我們考慮了一個(gè)類似于 Mask R-CNN 的一般架構(gòu)系列,與典型的 Mask R-CNN 訓(xùn)練環(huán)境相比,存在一個(gè)微小但關(guān)鍵的區(qū)別:我們在訓(xùn)練時(shí)使用實(shí)際邊界框(而不是建議邊界框)裁剪

典型的 Mask R-CNN 實(shí)現(xiàn)將兩種類型的裁剪都傳遞給掩碼頭部。然而,在傳統(tǒng)的觀點(diǎn)中,這個(gè)選擇是一個(gè)不重要的實(shí)施細(xì)節(jié),因?yàn)樗谌O(jiān)督環(huán)境中不會對性能產(chǎn)生顯著影響。相反,對于部分監(jiān)督環(huán)境,我們發(fā)現(xiàn)裁剪方法起著重要的作用,雖然在訓(xùn)練過程中,只對實(shí)際邊界框進(jìn)行裁剪不會使全監(jiān)督環(huán)境下的結(jié)果發(fā)生明顯變化,但在部分監(jiān)督環(huán)境中卻有著驚人的顯著積極影響,在未見類上的表現(xiàn)明顯改善。

利用建議和實(shí)際邊界框(默認(rèn)設(shè)置)或只用實(shí)際邊界框進(jìn)行訓(xùn)練時(shí),Mask R-CNN 在未見類上的性能。只用實(shí)際邊界框訓(xùn)練掩碼頭部時(shí),在未見類上的性能有明顯的提升,mAP 超過 9%。我們報(bào)告了 ResNet-101-FPN 主干加持下的性能

ResNet-101-FPN

https://arxiv.org/pdf/1703.06870.pdf

解鎖掩碼頭部的完全泛化潛力

更令人驚訝的是,上述方法引發(fā)了一個(gè)新現(xiàn)象:在訓(xùn)練過程中啟用實(shí)際裁剪, Mask R-CNN 的掩碼頭部對模型的泛化能力(泛化至未見類)起著異常重要的作用。舉個(gè)例子,我們在下圖中比較了幾個(gè)模型,對象為停車計(jì)時(shí)器、手機(jī)和披薩(訓(xùn)練期間未見過的類)。每個(gè)模型都已啟用實(shí)際邊界框裁剪,但使用的開箱即用掩碼頭部架構(gòu)不同。

使用四種不同的掩碼頭部架構(gòu)對未見類進(jìn)行掩碼預(yù)測(從左到右分別是:ResNet-4、ResNet-12、ResNet-20、Hourglass-20,其中數(shù)字是指神經(jīng)網(wǎng)絡(luò)的層數(shù))盡管從未見過“停車計(jì)時(shí)器”、“披薩”或“手機(jī)”類中的掩碼,但最右的掩碼頭部架構(gòu)可以正確分割這些類。我們展示的掩碼頭部架構(gòu)在掩碼預(yù)測方面的性能從左到右依次遞增。此外,這種差異只有在未見類上進(jìn)行評估時(shí)才比較明顯,如果在已見類上進(jìn)行評估,所有四個(gè)架構(gòu)會表現(xiàn)出類似的性能

ResNet-4

https://arxiv.org/abs/1512.03385

ResNet-12

https://arxiv.org/abs/1512.03385

ResNet-20

https://arxiv.org/abs/1512.03385

Hourglass-20

https://arxiv.org/abs/1603.0693

特別需要注意的是,在全監(jiān)督環(huán)境中,掩碼頭部架構(gòu)之間在這些方面的差異并不明顯。順便說一下,這可能解釋了為什么先前的實(shí)例分割研究幾乎只使用淺層(即低層數(shù))掩碼頭部,因?yàn)樵黾訌?fù)雜性無法帶來任何優(yōu)勢。下面我們比較了三種不同的掩碼頭部架構(gòu)在已見與未見類上的掩碼 mAP。所有這三種模型在已見類的集合上展現(xiàn)了同樣優(yōu)越的性能,但應(yīng)用于未見類時(shí),深沙漏型掩碼頭部脫穎而出。我們發(fā)現(xiàn),在所嘗試的架構(gòu)中,沙漏型掩碼頭部效果是最好的,并且在使用 50 層以上的沙漏型掩碼頭部時(shí)獲得了最佳結(jié)果。

ResNet-4、Hourglass-10 和 Hourglass-52 掩碼頭部架構(gòu)在已見類和未見類上的性能。盡管在已見類上的性能幾乎沒有變化,但在未見類上的性能卻有很大差別

沙漏型

https://arxiv.org/abs/1603.06937

最后,我們證明這一發(fā)現(xiàn)具有普遍性,適用于各種主干(如 ResNet、SpineNet 和 Hourglass)和檢測器架構(gòu),包括基于錨和無錨的檢測器,甚至在根本沒有檢測器的情況下也適用。

基于錨

https://arxiv.org/abs/1506.01497

無錨的檢測器

https://arxiv.org/abs/1904.07850

總結(jié)

為了得出最完善的結(jié)果,我們整合了上述發(fā)現(xiàn):我們在高分辨率圖像 (1280x1280) 上利用 SpineNet 主干訓(xùn)練了一個(gè)啟用實(shí)際邊界框裁剪且?guī)в猩?Hourglass-52 掩碼頭部的 Mask R-CNN 模型。我們稱此模型為 Deep-MARC (Deep Mask heads Above R-CNN)。在不使用任何離線訓(xùn)練或其他手動先驗(yàn)因素的情況下,Deep-MARC 超過了之前最先進(jìn)的模型,掩碼 mAP 提高了 4.5%(絕對值)以上。為證明這種方法的普遍性,我們還訓(xùn)練了基于 CenterNet(而非基于 Mask R-CNN)的模型(稱為 Deep-MAC),該模型同樣展現(xiàn)出強(qiáng)大的性能,也超越了之前最先進(jìn)的水平。

結(jié)論

我們開發(fā)的實(shí)例分割模型能夠泛化到不屬于訓(xùn)練集的類。這其中要強(qiáng)調(diào)兩個(gè)關(guān)鍵因素的作用,這兩個(gè)因素可以應(yīng)用于任何裁剪-分割模型(如 Mask R-CNN):(1) 訓(xùn)練過程中的實(shí)際邊界框裁剪, (2) 強(qiáng)大的掩碼頭部架構(gòu)。雖然這兩個(gè)因素對訓(xùn)練期間有掩碼的類影響不大,但在訓(xùn)練期間沒有掩碼的新類別上,采用這兩個(gè)因素會帶來明顯的改善。此外,這兩個(gè)因素足以在部分監(jiān)督的 COCO 基準(zhǔn)上實(shí)現(xiàn)最先進(jìn)的性能。最后,我們的研究結(jié)果具有普遍性,也可能對相關(guān)的任務(wù)產(chǎn)生影響,如全景分割和姿勢預(yù)測。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3255

    瀏覽量

    48898
  • 架構(gòu)
    +關(guān)注

    關(guān)注

    1

    文章

    516

    瀏覽量

    25493
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5505

    瀏覽量

    121255

原文標(biāo)題:重新審視模型架構(gòu)的掩碼頭部,用于新類別實(shí)例分割

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Flexus X 實(shí)例 ultralytics 模型 yolov10 深度學(xué)習(xí) AI 部署與應(yīng)用

    前言: ???深度學(xué)習(xí)新紀(jì)元,828 B2B 企業(yè)節(jié) Flexus X 實(shí)例特惠!想要高效訓(xùn)練 YOLOv10 模型,實(shí)現(xiàn)精準(zhǔn)圖像識別?Flexus X 以卓越算力,助您輕松駕馭大規(guī)模數(shù)據(jù)集,加速
    的頭像 發(fā)表于 12-24 12:24 ?286次閱讀
    Flexus X <b class='flag-5'>實(shí)例</b> ultralytics 模型 yolov10 <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b> AI 部署與應(yīng)用

    NPU在深度學(xué)習(xí)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其核心驅(qū)動力之一,已經(jīng)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和價(jià)值。NPU(Neural Processing Unit,神經(jīng)網(wǎng)絡(luò)處理單元)是專門為深度學(xué)習(xí)
    的頭像 發(fā)表于 11-14 15:17 ?657次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識別 圖像識別是深度學(xué)習(xí)
    的頭像 發(fā)表于 10-27 11:13 ?408次閱讀

    語義分割25種損失函數(shù)綜述和展望

    語義圖像分割,即將圖像中的每個(gè)像素分類到特定的類別中,是許多視覺理解系統(tǒng)中的重要組成部分。作為評估統(tǒng)計(jì)模型性能的主要標(biāo)準(zhǔn),損失函數(shù)對于塑造基于深度學(xué)習(xí)
    的頭像 發(fā)表于 10-22 08:04 ?625次閱讀
    語義<b class='flag-5'>分割</b>25種損失函數(shù)綜述和展望

    PyTorch深度學(xué)習(xí)開發(fā)環(huán)境搭建指南

    PyTorch作為一種流行的深度學(xué)習(xí)框架,其開發(fā)環(huán)境的搭建對于深度學(xué)習(xí)研究者和開發(fā)者來說至關(guān)重要。在Windows操作系統(tǒng)上搭建PyTorc
    的頭像 發(fā)表于 07-16 18:29 ?1099次閱讀

    深度學(xué)習(xí)中反卷積的原理和應(yīng)用

    分割、圖像重建和生成對抗網(wǎng)絡(luò)(GANs)等,反卷積展現(xiàn)出了其獨(dú)特的優(yōu)勢和廣泛的應(yīng)用前景。本文將詳細(xì)探討深度學(xué)習(xí)中的反卷積技術(shù),包括其定義、原理、實(shí)現(xiàn)方式、應(yīng)用場景以及與其他上采樣方法的比較,以期為讀者提供一個(gè)全面而深入的理解。
    的頭像 發(fā)表于 07-14 10:22 ?1899次閱讀

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

    在機(jī)器學(xué)習(xí)中,數(shù)據(jù)分割是一項(xiàng)至關(guān)重要的任務(wù),它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評估。本文將從多個(gè)方面詳細(xì)探討機(jī)器學(xué)習(xí)中數(shù)據(jù)分割的方法,包括常見的
    的頭像 發(fā)表于 07-10 16:10 ?1881次閱讀

    神經(jīng)網(wǎng)絡(luò)如何用無監(jiān)督算法訓(xùn)練

    神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成部分,其訓(xùn)練方式多樣,其中無監(jiān)督學(xué)習(xí)是一種重要的訓(xùn)練策略。無監(jiān)督學(xué)習(xí)旨在從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)、模
    的頭像 發(fā)表于 07-09 18:06 ?833次閱讀

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計(jì)算機(jī)視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心模型,在圖像
    的頭像 發(fā)表于 07-09 11:51 ?975次閱讀

    深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

    應(yīng)用中往往難以實(shí)現(xiàn)。因此,無監(jiān)督學(xué)習(xí)深度學(xué)習(xí)中扮演著越來越重要的角色。本文旨在綜述深度學(xué)習(xí)中的無監(jiān)督學(xué)
    的頭像 發(fā)表于 07-09 10:50 ?802次閱讀

    深度學(xué)習(xí)中的模型權(quán)重

    深度學(xué)習(xí)這一充滿無限可能性的領(lǐng)域中,模型權(quán)重(Weights)作為其核心組成部分,扮演著至關(guān)重要的角色。它們不僅是模型學(xué)習(xí)的基石,更是模型智能的源泉。本文將從模型權(quán)重的定義、作用、優(yōu)
    的頭像 發(fā)表于 07-04 11:49 ?1427次閱讀

    深度學(xué)習(xí)的基本原理與核心算法

    處理、語音識別等領(lǐng)域取得了革命性的突破。本文將詳細(xì)闡述深度學(xué)習(xí)的原理、核心算法以及實(shí)現(xiàn)方式,并通過一個(gè)具體的代碼實(shí)例進(jìn)行說明。
    的頭像 發(fā)表于 07-04 11:44 ?2173次閱讀

    深度解析深度學(xué)習(xí)下的語義SLAM

    隨著深度學(xué)習(xí)技術(shù)的興起,計(jì)算機(jī)視覺的許多傳統(tǒng)領(lǐng)域都取得了突破性進(jìn)展,例如目標(biāo)的檢測、識別和分類等領(lǐng)域。近年來,研究人員開始在視覺SLAM算法中引入深度學(xué)習(xí)技術(shù),使得
    發(fā)表于 04-23 17:18 ?1312次閱讀
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>下的語義SLAM

    FPGA在深度學(xué)習(xí)應(yīng)用中或?qū)⑷〈鶪PU

    硬件公司供貨的不斷增加,GPU 在深度學(xué)習(xí)中的市場需求還催生了大量公共云服務(wù),這些服務(wù)為深度學(xué)習(xí)項(xiàng)目提供強(qiáng)大的 GPU 虛擬機(jī)。 但是顯卡也受硬件和
    發(fā)表于 03-21 15:19

    詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    在如今的網(wǎng)絡(luò)時(shí)代,錯(cuò)綜復(fù)雜的大數(shù)據(jù)和網(wǎng)絡(luò)環(huán)境,讓傳統(tǒng)信息處理理論、人工智能與人工神經(jīng)網(wǎng)絡(luò)都面臨巨大的挑戰(zhàn)。近些年,深度學(xué)習(xí)逐漸走進(jìn)人們的視線,通過深度
    的頭像 發(fā)表于 01-11 10:51 ?2152次閱讀
    詳解<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用