0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語(yǔ)義分割模型 SegNeXt方法概述

lhl545545 ? 來(lái)源:CVer ? 作者:CVer ? 2022-09-27 15:27 ? 次閱讀

語(yǔ)義分割是對(duì)圖像中的每個(gè)像素進(jìn)行識(shí)別的一種算法,可以對(duì)圖像進(jìn)行像素級(jí)別的理解。作為計(jì)算機(jī)視覺(jué)中的基礎(chǔ)任務(wù)之一,其不僅僅在學(xué)術(shù)界廣受關(guān)注,也在無(wú)人駕駛、工業(yè)檢測(cè)、輔助診斷等領(lǐng)域有著廣泛的應(yīng)用。

近期,計(jì)圖團(tuán)隊(duì)與南開(kāi)大學(xué)程明明教授團(tuán)隊(duì)、非十科技劉政寧博士等合作,提出了一種全新的語(yǔ)義分割模型 SegNeXt,該方法大幅提高了當(dāng)前語(yǔ)義分割方法的性能,并在Pascal VOC 分割排行榜上名列第一。該論文已被 NeurIPS 2022 接收。

Part1

語(yǔ)義分割模型SegNeXt

研究背景 自2015年FCN[2] 被提出以來(lái),語(yǔ)義分割開(kāi)始逐漸走向深度學(xué)習(xí)算法,其常用架構(gòu)為編碼-解碼器結(jié)構(gòu)(Encoder-Decoder)。在 vision transformer 被提出之前,人們通常采用卷積神經(jīng)網(wǎng)絡(luò)(如 ResNet、VGGNet、GoogleNet 等) 作為其編碼器部分;最近,由于vision transformer 在視覺(jué)領(lǐng)域的成功,語(yǔ)義分割編碼器部分開(kāi)始逐漸被換成基于vision transformer的模型(如 ViT、SegFormer、HRFormer等)。但是,基于 vision transformer編碼器的方法真的比基于卷積神經(jīng)網(wǎng)絡(luò)的方法更好么?為了回答這個(gè)問(wèn)題,Jittor團(tuán)隊(duì)重新思考了語(yǔ)義分割任務(wù)對(duì)神經(jīng)網(wǎng)絡(luò)的要求,并針對(duì)語(yǔ)義分割的任務(wù)專(zhuān)門(mén)設(shè)計(jì)了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)的編碼器MSCAN 和一個(gè)語(yǔ)義分割模型 SegNeXt。

cd9d8030-3c22-11ed-9e49-dac502259ad0.png

圖1. SegNeXt 和其他語(yǔ)義分割方法的性能對(duì)比,其中紅色為SegNeXt

方法概述

論文首先分析了語(yǔ)義分割任務(wù)本身以及之前的相關(guān)工作,總結(jié)出四點(diǎn)語(yǔ)義分割任務(wù)所需的關(guān)鍵因素。1)強(qiáng)大的骨干網(wǎng)絡(luò)作為編碼器。與之前基于 CNN 的模型相比,基于Transformer 的模型的性能提升主要來(lái)自更強(qiáng)大的骨干網(wǎng)絡(luò)。2)多尺度信息交互。與主要識(shí)別單個(gè)對(duì)象的圖像分類(lèi)任務(wù)不同,語(yǔ)義分割是一項(xiàng)密集的預(yù)測(cè)任務(wù),因此需要在單個(gè)圖像中處理不同大小的對(duì)象,這就使得針對(duì)語(yǔ)義分割任務(wù)的網(wǎng)絡(luò)需要多尺度信息的交互。3)注意力機(jī)制:注意力可以使得模型關(guān)注到重點(diǎn)的部分,并且可以使得網(wǎng)絡(luò)獲得自適應(yīng)性。4)低計(jì)算復(fù)雜度:這對(duì)于常常處理高分辨率圖像的語(yǔ)義分割任務(wù)來(lái)說(shuō)至關(guān)重要。

cda70fa6-3c22-11ed-9e49-dac502259ad0.png

表 1 不同方法所具有的的屬性對(duì)比

為了滿(mǎn)足上述四點(diǎn)要求,作者設(shè)計(jì)了一種簡(jiǎn)單的多尺度卷積注意力機(jī)制 (MSCA)。如圖 2 所示,MSCA 主要是采用大卷積核分解、多分支并行架構(gòu)以及類(lèi)似VAN[3]的注意力機(jī)制。這使得 MSCA 可以獲得大感受野、多尺度信息以及自適應(yīng)性等有益屬性。基于 MSCA,該論文搭建了一種層次化神經(jīng)網(wǎng)絡(luò) MSCAN 作為SegNeXt 的編碼器部分。除此之外,作者采用了 UNet 架構(gòu),并選擇了HamNet[4] 作為 SegNeXt 的解碼器部分。分析和實(shí)驗(yàn)證明,MSCAN和 Ham 優(yōu)勢(shì)互補(bǔ),兩者相互配合,使得 SegNeXt 實(shí)現(xiàn)了優(yōu)異的性能。

cdb2dd5e-3c22-11ed-9e49-dac502259ad0.png

圖 2:多尺度卷積注意力(MSCA) 示意圖 實(shí)驗(yàn)結(jié)果 本文在五個(gè)常見(jiàn)分割數(shù)據(jù)集上 ADE20K, Cityscapes,COCO-Stuff, Pascal VOC, Pascal Context 和一個(gè)遙感分割數(shù)據(jù)集 iSAID做了測(cè)評(píng),SegNeXt均超過(guò)了之前的方法。限于篇幅,我們僅展示部分結(jié)果。

表2:在 ADE20K、Cityscapes, COCO-Stuff 上的實(shí)驗(yàn)結(jié)果

cdd3f5e8-3c22-11ed-9e49-dac502259ad0.png

表 3 SegNeXt 在遙感數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

cde6a774-3c22-11ed-9e49-dac502259ad0.png

Part2 計(jì)圖語(yǔ)義分割算法庫(kù)JSeg Jittor團(tuán)隊(duì)基于自主深度學(xué)習(xí)框架Jittor[5],并借鑒MMSegmentation語(yǔ)義分割算法庫(kù)的特點(diǎn),開(kāi)發(fā)了語(yǔ)義分割算法庫(kù)JSeg。MMSegmentation是廣泛使用的功能強(qiáng)大的語(yǔ)義分割算法庫(kù),新推出的JSeg可以直接加載MMSegmentation的模型,同時(shí)借助Jittor深度學(xué)習(xí)平臺(tái)的優(yōu)勢(shì),使其更高效、穩(wěn)定運(yùn)行,可以實(shí)現(xiàn)訓(xùn)練和推理快速的從PyTorch向Jittor遷移。 目前JSeg已經(jīng)支持4個(gè)模型、4個(gè)數(shù)據(jù)集,其中模型包括在Pascal VOC test dataset斬獲第一的SegNeXt模型,數(shù)據(jù)集包括經(jīng)典的ADE20K Dataset、CityScapes Dataset以及遙感分割中的iSAID Dataset等,后續(xù)JSeg也將支持更多的模型和數(shù)據(jù)集! 性能提升 我們使用SegNeX-Tiny模型,與Pytorch實(shí)現(xiàn)的版本在NVIDIA TITAN RTX上進(jìn)行了對(duì)比,可以顯著縮短模型訓(xùn)練所需要的時(shí)間。

表1JSeg和mmseg(PyTorch)的訓(xùn)練時(shí)間對(duì)比

ce026cd4-3c22-11ed-9e49-dac502259ad0.png

易用性提升

由于Jittor動(dòng)態(tài)編譯的特性及code算子對(duì)python內(nèi)聯(lián)C++及CUDA的支持,JSeg在不同環(huán)境下無(wú)需對(duì)任何算子進(jìn)行手動(dòng)編譯,即可輕松運(yùn)行不同模型,免去了用戶(hù)對(duì)不同模型分別配置環(huán)境的負(fù)擔(dān),同時(shí)方便用戶(hù)對(duì)不同方法進(jìn)行更公平的比較。此外,JSeg的設(shè)計(jì)易于拓展,用戶(hù)可以基于JSeg已有的模型和功能方便地開(kāi)展進(jìn)一步的研究和開(kāi)發(fā)。

實(shí)踐案例

下面,我們將簡(jiǎn)要介紹如何使用JSeg訓(xùn)練一個(gè)基礎(chǔ)模型。

首先,下載數(shù)據(jù)集到原始數(shù)據(jù)集目錄。

ce13a83c-3c22-11ed-9e49-dac502259ad0.png

通過(guò)tools/convert_datasets下的數(shù)據(jù)處理腳本對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,得到處理后的數(shù)據(jù)集。然后即可對(duì)模型進(jìn)行單卡或者多卡訓(xùn)練、評(píng)估和測(cè)試,同時(shí)提供了推理接口,用戶(hù)可以使用10行代碼完成一張圖片的語(yǔ)義分割,盡可能地降低了用戶(hù)的使用成本。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1161

    瀏覽量

    41542
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3462

    瀏覽量

    49785
  • 計(jì)算機(jī)視覺(jué)

    關(guān)注

    8

    文章

    1705

    瀏覽量

    46463
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5547

    瀏覽量

    122283

原文標(biāo)題:NeurIPS 2022 | 清華&南開(kāi)提出SegNeXt:重新思考語(yǔ)義分割的卷積注意力設(shè)計(jì)

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦

    聚焦語(yǔ)義分割任務(wù),如何用卷積神經(jīng)網(wǎng)絡(luò)處理語(yǔ)義圖像分割?

    CNN架構(gòu)圖像語(yǔ)義分割 圖像分割是根據(jù)圖像內(nèi)容對(duì)指定區(qū)域進(jìn)行標(biāo)記的計(jì)算機(jī)視覺(jué)任務(wù),簡(jiǎn)言之就是「這張圖片里有什么,其在圖片中的位置是什么?」本文聚焦于語(yǔ)義
    發(fā)表于 09-17 15:21 ?628次閱讀

    Facebook AI使用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)同時(shí)完成實(shí)例分割語(yǔ)義分割

    這一新架構(gòu)“全景 FPN ”在 Facebook 2017 年發(fā)布的 Mask R-CNN 的基礎(chǔ)上添加了一個(gè)用于語(yǔ)義分割的分支。這一新架構(gòu)可以同時(shí)對(duì)圖像進(jìn)行實(shí)例和語(yǔ)義分割,而且精確度
    的頭像 發(fā)表于 04-22 11:46 ?3028次閱讀
    Facebook AI使用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)同時(shí)完成實(shí)例<b class='flag-5'>分割</b>和<b class='flag-5'>語(yǔ)義</b><b class='flag-5'>分割</b>

    DeepLab進(jìn)行語(yǔ)義分割的研究分析

    DeepLab是谷歌使用tensorflow基于CNN開(kāi)發(fā)的語(yǔ)義分割模型,至今已更新4個(gè)版本。最新版本是DeepLabv3+,在此模型中進(jìn)一步將深度可分離卷積應(yīng)用到孔空間金字塔池化和解
    發(fā)表于 10-24 08:00 ?11次下載
    DeepLab進(jìn)行<b class='flag-5'>語(yǔ)義</b><b class='flag-5'>分割</b>的研究分析

    語(yǔ)義分割算法系統(tǒng)介紹

    圖像語(yǔ)義分割是圖像處理和是機(jī)器視覺(jué)技術(shù)中關(guān)于圖像理解的重要任務(wù)。語(yǔ)義分割即是對(duì)圖像中每一個(gè)像素點(diǎn)進(jìn)行分類(lèi),確定每個(gè)點(diǎn)的類(lèi)別,從而進(jìn)行區(qū)域劃分,為了能夠幫助大家更好的了解
    的頭像 發(fā)表于 11-05 10:34 ?6993次閱讀

    語(yǔ)義分割方法發(fā)展過(guò)程

    語(yǔ)義分割的最簡(jiǎn)單形式是對(duì)一個(gè)區(qū)域設(shè)定必須滿(mǎn)足的硬編碼規(guī)則或?qū)傩?,進(jìn)而指定特定類(lèi)別標(biāo)簽. 編碼規(guī)則可以根據(jù)像素的屬性來(lái)構(gòu)建,如灰度級(jí)強(qiáng)度(gray level intensity). 基于該技術(shù)的一種
    的頭像 發(fā)表于 12-28 14:28 ?5276次閱讀

    分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割方法

    隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展及其在語(yǔ)義分割領(lǐng)域的廣泛應(yīng)用,語(yǔ)義分割效果得到顯著提升。對(duì)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義
    發(fā)表于 03-19 14:14 ?21次下載
    分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像<b class='flag-5'>語(yǔ)義</b><b class='flag-5'>分割</b><b class='flag-5'>方法</b>

    結(jié)合雙目圖像的深度信息跨層次特征的語(yǔ)義分割模型

    為改善單目圖像語(yǔ)義分割網(wǎng)絡(luò)對(duì)圖像深度變化區(qū)域的分割效果,提出一種結(jié)合雙目圖像的深度信息和跨層次特征進(jìn)行互補(bǔ)應(yīng)用的語(yǔ)義分割
    發(fā)表于 03-19 14:35 ?21次下載
    結(jié)合雙目圖像的深度信息跨層次特征的<b class='flag-5'>語(yǔ)義</b><b class='flag-5'>分割</b><b class='flag-5'>模型</b>

    基于深度神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割方法

    對(duì)應(yīng)用于圖像語(yǔ)義分割的幾種深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行簡(jiǎn)單介紹,接著詳細(xì)闡述了現(xiàn)有主流的基于深度神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割
    發(fā)表于 04-02 13:59 ?11次下載
    基于深度神經(jīng)網(wǎng)絡(luò)的圖像<b class='flag-5'>語(yǔ)義</b><b class='flag-5'>分割</b><b class='flag-5'>方法</b>

    基于SEGNET模型的圖像語(yǔ)義分割方法

    使用原始 SEGNET模型對(duì)圖像進(jìn)行語(yǔ)義分割時(shí),未對(duì)圖像中相鄰像素點(diǎn)間的關(guān)系進(jìn)行考慮,導(dǎo)致同一目標(biāo)中像素點(diǎn)類(lèi)別預(yù)測(cè)結(jié)果不一致。通過(guò)在 SEGNET結(jié)構(gòu)中加入一條自上而下的通道,使得 SEGNET包含
    發(fā)表于 05-27 14:54 ?15次下載

    圖像語(yǔ)義分割的概念與原理以及常用的方法

    從最簡(jiǎn)單的像素級(jí)別“閾值法”(Thresholding methods)、基于像素聚類(lèi)的分割方法(Clustering-based segmentation methods)到“圖劃分”的分割
    的頭像 發(fā)表于 04-20 10:01 ?5445次閱讀

    語(yǔ)義分割標(biāo)注:從認(rèn)知到實(shí)踐

    隨著人工智能技術(shù)的不斷發(fā)展,語(yǔ)義分割標(biāo)注已經(jīng)成為計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)熱門(mén)話(huà)題。語(yǔ)義分割是指將圖像中的每個(gè)像素分配給一個(gè)預(yù)定義的語(yǔ)義類(lèi)別,以便
    的頭像 發(fā)表于 04-30 21:20 ?1288次閱讀

    CVPR 2023 | 華科&amp;MSRA新作:基于CLIP的輕量級(jí)開(kāi)放詞匯語(yǔ)義分割架構(gòu)

    Adapter Network (SAN)的新框架,用于基于預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型進(jìn)行開(kāi)放式語(yǔ)義分割。該方法語(yǔ)義
    的頭像 發(fā)表于 07-10 10:05 ?1362次閱讀
    CVPR 2023 | 華科&amp;MSRA新作:基于CLIP的輕量級(jí)開(kāi)放詞匯<b class='flag-5'>語(yǔ)義</b><b class='flag-5'>分割</b>架構(gòu)

    深度學(xué)習(xí)圖像語(yǔ)義分割指標(biāo)介紹

    深度學(xué)習(xí)在圖像語(yǔ)義分割上已經(jīng)取得了重大進(jìn)展與明顯的效果,產(chǎn)生了很多專(zhuān)注于圖像語(yǔ)義分割模型與基準(zhǔn)數(shù)據(jù)集,這些基準(zhǔn)數(shù)據(jù)集提供了一套統(tǒng)一的批判
    發(fā)表于 10-09 15:26 ?563次閱讀
    深度學(xué)習(xí)圖像<b class='flag-5'>語(yǔ)義</b><b class='flag-5'>分割</b>指標(biāo)介紹

    圖像分割語(yǔ)義分割中的CNN模型綜述

    圖像分割語(yǔ)義分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語(yǔ)義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心模型
    的頭像 發(fā)表于 07-09 11:51 ?1548次閱讀

    圖像語(yǔ)義分割的實(shí)用性是什么

    圖像語(yǔ)義分割是一種重要的計(jì)算機(jī)視覺(jué)任務(wù),它旨在將圖像中的每個(gè)像素分配到相應(yīng)的語(yǔ)義類(lèi)別中。這項(xiàng)技術(shù)在許多領(lǐng)域都有廣泛的應(yīng)用,如自動(dòng)駕駛、醫(yī)學(xué)圖像分析、機(jī)器人導(dǎo)航等。 一、圖像語(yǔ)義
    的頭像 發(fā)表于 07-17 09:56 ?732次閱讀

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品