0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用深度學(xué)習(xí)模型實(shí)現(xiàn)監(jiān)督式語義分割

ml8z_IV_Technol ? 來源:未知 ? 作者:李倩 ? 2018-05-25 10:09 ? 次閱讀

語義分割是計(jì)算機(jī)視覺中的任務(wù),語義分割讓我們對(duì)圖像的理解比圖像分類和目標(biāo)物體檢測(cè)更詳細(xì)。這種對(duì)細(xì)節(jié)的理解在很多領(lǐng)域都非常重要,包括自動(dòng)駕駛、機(jī)器人和圖片搜索引擎。來自斯坦福大學(xué)的Andy Chen和Chaitanya Asawa為我們?cè)敿?xì)介紹了進(jìn)行精確語義分割都需要哪些條件。本文將重點(diǎn)講解利用深度學(xué)習(xí)模型實(shí)現(xiàn)監(jiān)督式語義分割。

人類如何描述一個(gè)場(chǎng)景?我們可能會(huì)說“窗戶下面有一張桌子”或者“沙發(fā)右邊有一盞臺(tái)燈”。將場(chǎng)景分割成獨(dú)立的實(shí)體是理解一張圖像的關(guān)鍵,它讓我們了解目標(biāo)物體的行為。

當(dāng)然,目標(biāo)檢測(cè)方法可以幫我們?cè)谔囟▽?shí)體周圍畫出邊界框。但是要想像人類一樣對(duì)場(chǎng)景有所了解還需要對(duì)每個(gè)實(shí)體的邊界框進(jìn)行監(jiān)測(cè)和標(biāo)記,并精確到像素級(jí)。這項(xiàng)任務(wù)變得越來越重要,因?yàn)槲覀冮_始創(chuàng)建自動(dòng)駕駛汽車和智能機(jī)器人,它們都需要對(duì)周圍環(huán)境有著精確的理解。來自斯坦福大學(xué)的Andy Chen和Chaitanya Asawa就為我們?cè)敿?xì)介紹了進(jìn)行精確語義分割都需要哪些條件。以下是論智的編譯。

什么是語義分割

語義分割是計(jì)算機(jī)視覺中的任務(wù),在這一過程中,我們將視覺輸入中的不同部分按照語義分到不同類別中。通過“語義理解”,各類別有一定的現(xiàn)實(shí)意義。例如,我們可能想提取圖中所有關(guān)于“汽車”的像素,然后把顏色涂成藍(lán)色。

雖然例如聚類等無監(jiān)督的方法可以用于分割,但是這樣的結(jié)果并不是按照語義分類的。這些方法并非按照訓(xùn)練方法進(jìn)行分割,而是按照更通用的方法。

語義分割讓我們對(duì)圖像的理解比圖像分類和目標(biāo)物體檢測(cè)更詳細(xì)。這種對(duì)細(xì)節(jié)的理解在很多領(lǐng)域都非常重要,包括自動(dòng)駕駛、機(jī)器人和圖片搜索引擎。這篇文章將重點(diǎn)講解利用深度學(xué)習(xí)模型實(shí)現(xiàn)監(jiān)督式語義分割。

數(shù)據(jù)集和標(biāo)準(zhǔn)

經(jīng)常用于訓(xùn)練語義分割模型的數(shù)據(jù)集有:

Pascal VOC 2012:其中有20個(gè)類別,包括人物、交通工具等等。目的是為了分割目標(biāo)物體類別或背景。

Cityscapes:從50個(gè)城市收集的景觀數(shù)據(jù)集。

Pascal Context:有超過400種室內(nèi)和室外場(chǎng)景。

Stanford Background Dataset:該數(shù)據(jù)集全部由室外場(chǎng)景組成,但每張圖片都有至少一個(gè)前景。

用來評(píng)估語義分割算法性能的標(biāo)準(zhǔn)是平均IoU(Intersection Over Union),這里IoU被定義為:

這一標(biāo)準(zhǔn)能保證我們不僅能捕捉到每個(gè)目標(biāo)對(duì)象,還能非常精確地完成這一任務(wù)。

語義分割過程(Pipeline)

在高級(jí)過程中,通常應(yīng)用語義分割模型的過程如下:

輸入→分類器→后處理→最終結(jié)果

之后我們將詳細(xì)討論分類器和后處理的過程。

結(jié)構(gòu)和分割方法

用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類

最近進(jìn)行語義分割的結(jié)構(gòu)大多用的是卷積神經(jīng)網(wǎng)絡(luò)(CNN),它首先會(huì)給每個(gè)像素分配最初的類別標(biāo)簽。卷積層可以有效地捕捉圖像的局部特征,同時(shí)將這樣的圖層分層嵌入,CNN嘗試提取更寬廣的結(jié)構(gòu)。隨著越來越多的卷積層捕捉到越來越復(fù)雜的圖像特征,一個(gè)卷積神經(jīng)網(wǎng)絡(luò)可以將圖像中的內(nèi)容編碼成緊湊的表示。

但是想要將單獨(dú)的像素映射到標(biāo)簽,我們需要在一個(gè)編碼-解碼器設(shè)置中增強(qiáng)標(biāo)準(zhǔn)的CNN編碼器。在這個(gè)設(shè)置中,編碼器用卷積層和池化層減少圖像的寬度和高度,達(dá)到一個(gè)更低維的表示。之后將其輸入到解碼器中,通過上采樣“恢復(fù)”空間維度,在每個(gè)解碼器的步驟上擴(kuò)大表示的尺寸。在一些情況中,編碼器中間的步驟是用來幫助解碼器的步驟的。最終,解碼器生成了一群表示原始圖像的標(biāo)簽。

SCNet的編碼-解碼設(shè)置

在許多語義分割結(jié)構(gòu)中,CNN想要最小化的損失函數(shù)是交叉熵?fù)p失。這一目標(biāo)函數(shù)測(cè)量每個(gè)像素的預(yù)測(cè)概率分布與它實(shí)際概率分布的距離。

然而,交叉熵?fù)p失對(duì)語義分割并不理想,因?yàn)橐粡垐D像的最終損失僅僅是每個(gè)像素?fù)p失的總和,而交叉熵?fù)p失不是并行的。由于交叉熵?fù)p失無法在像素間添加更高級(jí)的架構(gòu),所以最小化交叉熵的標(biāo)簽會(huì)經(jīng)常變得不完整或者失真,這時(shí)候就需要后處理了。

用條件隨機(jī)場(chǎng)進(jìn)行改進(jìn)

CNN中的原始標(biāo)簽經(jīng)常是經(jīng)過補(bǔ)綴的圖像,其中可能有一些地方是錯(cuò)誤的標(biāo)簽,與周圍的像素標(biāo)簽不一致。為了解決這一不連貫的問題,我們可以應(yīng)用一種令其變光滑的技術(shù)。我們想保證目標(biāo)物體所在圖像區(qū)域是連貫的,同時(shí)任何像素都與其周圍有著相同的標(biāo)簽。

為了解決這一問題,一些架構(gòu)用到了條件隨機(jī)場(chǎng)(CRFs),它利用原始圖像中像素的相似性調(diào)整CNN的標(biāo)簽。

條件隨機(jī)場(chǎng)的示例

一個(gè)條件隨機(jī)場(chǎng)是由隨機(jī)變量組成的圖形。在這一語境中,每個(gè)節(jié)點(diǎn)代表:

特定像素的CNN標(biāo)簽(綠色)

特定像素的實(shí)際物體標(biāo)簽(黃色)

每個(gè)連接線中編碼了兩個(gè)類型的信息:

藍(lán)色:兩像素中實(shí)際標(biāo)簽之間的相關(guān)性

紅色:CNN原始預(yù)測(cè)和給定像素的實(shí)際標(biāo)簽之間的依賴關(guān)系

每種依賴關(guān)系都與潛力有關(guān),它是由兩個(gè)相關(guān)隨機(jī)變量表示的函數(shù)。例如,當(dāng)相鄰像素的實(shí)際標(biāo)簽相同時(shí),第一種依賴關(guān)系的可能性更高。更直接地說,對(duì)象標(biāo)簽起到隱藏變量的作用,可以根據(jù)某些概率分布生成可觀察的CNN像素標(biāo)簽。

要用CRF調(diào)整標(biāo)簽,我們首先用訓(xùn)練數(shù)據(jù)學(xué)習(xí)圖像模型的參數(shù)。然后,我們?cè)僬{(diào)整參數(shù)使概率最大化。CRF推斷的輸出就是原始圖像像素的最終目標(biāo)標(biāo)簽。

在實(shí)際中,CRF圖形是完全連接的,這意味著即使與節(jié)點(diǎn)相對(duì)的像素距離很遠(yuǎn),仍然可以在一條連接線上。這樣的圖形有幾十億條連接線,在計(jì)算實(shí)際的推斷時(shí)非常耗費(fèi)計(jì)算力。CRF架構(gòu)將用高效的估算技術(shù)進(jìn)行推斷。

分類器結(jié)構(gòu)

CNN分類之后的CRF調(diào)整只是語義分割過程的一個(gè)示例。許多研究論文都討論過這一過程的變體:

U-Net通過生成原始訓(xùn)練數(shù)據(jù)的變形版本增強(qiáng)其訓(xùn)練數(shù)據(jù)。這一步驟讓CNN的編碼-解碼器在應(yīng)對(duì)這樣的變形時(shí)更加穩(wěn)定,同時(shí)能在更少的訓(xùn)練圖像中學(xué)習(xí)。當(dāng)在一個(gè)不到40張的醫(yī)學(xué)圖像集中訓(xùn)練時(shí),模型的IoU分?jǐn)?shù)依然達(dá)到了92%。

DeepLab結(jié)合了CNN編碼-解碼器和CRF調(diào)整,生成了它的對(duì)象標(biāo)簽(作者強(qiáng)調(diào)了解碼過程中的上采樣)。空洞卷積使用每層不同尺寸的過濾器,讓每個(gè)圖層捕捉到不同規(guī)模大小的特征。在Pascal VOC 2012測(cè)試集上,這一結(jié)構(gòu)的平均IoU分?jǐn)?shù)為70.3%。

Dilation10是空洞卷積的替代方法。在Pascal VOC 2012測(cè)試集上,它的平均IoU分?jǐn)?shù)為75.3%。

其他訓(xùn)練過程

現(xiàn)在我們關(guān)注一下最近的訓(xùn)練案例,與含有各種元素、優(yōu)化不同的是,這些方法都是端到端的。

完全差分條件隨機(jī)場(chǎng)

Zheng等人提出的CRF-RNN模型介紹了一種將分類和后處理結(jié)合到一種端到端模型的方法,同時(shí)優(yōu)化兩個(gè)階段。因此,例如CRF高斯核的權(quán)重參數(shù)就可以自動(dòng)學(xué)習(xí)。它們浮現(xiàn)了推理近似算法作為卷積而達(dá)到這一目的,同時(shí)使用循環(huán)神經(jīng)網(wǎng)絡(luò)模擬推理算法的完全迭代本性。

分別用FCN-8s、DeepLab和CRF-RNN生成的兩張圖片的分割

對(duì)抗訓(xùn)練

最近,還有人研究了利用對(duì)抗訓(xùn)練幫助開發(fā)更高程度的一致性。受到生成對(duì)抗網(wǎng)絡(luò)的啟發(fā),Luc等人訓(xùn)練了一個(gè)標(biāo)準(zhǔn)的CNN用來做語義分割,同時(shí)還有一個(gè)對(duì)抗網(wǎng)絡(luò),試著學(xué)習(xí)標(biāo)準(zhǔn)分割與預(yù)測(cè)分割之間的區(qū)別。分割網(wǎng)絡(luò)的目的是生成對(duì)抗網(wǎng)絡(luò)無法分辨的語義分割。

這里的中心思想是,我們想讓我們的分割看起來盡可能真實(shí)。如果其他網(wǎng)絡(luò)可以輕易識(shí)破,那么我們做出的分割預(yù)測(cè)就不夠好。

隨時(shí)間進(jìn)行分割

我們?nèi)绾晤A(yù)測(cè)目標(biāo)物體在未來會(huì)如何呢?我們可以對(duì)某一場(chǎng)景中的分割動(dòng)作建模。這可以應(yīng)用到機(jī)器人或自動(dòng)交通工具中,這些產(chǎn)品需要對(duì)物體的移動(dòng)進(jìn)行建模,從而做計(jì)劃。

Luc等人在2017年討論了這一問題,在論文中他們表示直接預(yù)測(cè)未來的語義分割會(huì)生成比預(yù)測(cè)未來框架然后再分割更好的性能。

他們用了自動(dòng)回歸模型,用過去的分割預(yù)測(cè)下一個(gè)分割,以此類推。

最終發(fā)現(xiàn)這種方法長期的性能不太好,中短期來看效果不錯(cuò)。

結(jié)語

在這之中的很多方法,例如U-Net,都遵循了一個(gè)基礎(chǔ)結(jié)構(gòu):我們引用深度學(xué)習(xí)(或卷積網(wǎng)絡(luò)),之后用傳統(tǒng)概率的方法進(jìn)行后處理。雖然卷積網(wǎng)絡(luò)的原始輸出不太完美,后處理能將分割的標(biāo)簽調(diào)整到接近人類的水平。

其他方法,例如對(duì)抗學(xué)習(xí),可以看作是分割的強(qiáng)大端到端解決方案。與之前的CRF步驟不同,端到端技術(shù)無需人類建模調(diào)整原始預(yù)測(cè)。由于這些技術(shù)目前的性能比多步驟的方案都好,未來將有更多關(guān)于端到端算法的研究。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:細(xì)說語義分割,不只是畫個(gè)邊框那么簡單

文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    主動(dòng)脈夾層分割深度學(xué)習(xí)模型是如何煉成的?

    利用深度學(xué)習(xí)進(jìn)行主動(dòng)脈真假腔分割有賴于大量手動(dòng)標(biāo)注的主動(dòng)脈圖像來訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò),計(jì)算量大,且對(duì)
    的頭像 發(fā)表于 07-17 09:14 ?6212次閱讀

    深度學(xué)習(xí)模型是如何創(chuàng)建的?

    具有深度學(xué)習(xí)模型的嵌入系統(tǒng)應(yīng)用程序帶來了巨大的好處。深度學(xué)習(xí)嵌入
    發(fā)表于 10-27 06:34

    van-自然和醫(yī)學(xué)圖像的深度語義分割:網(wǎng)絡(luò)結(jié)構(gòu)

    覆蓋了圖像的全部、一半和小部分。他們被融合為全局先驗(yàn)信息;在c的最后部分將之前的金字塔特征映射與原始特征映射concate起來;在進(jìn)行卷積,生成d中的最終預(yù)測(cè)圖??偨Y(jié)基于深度學(xué)習(xí)的圖像語義分割
    發(fā)表于 12-28 11:03

    van-自然和醫(yī)學(xué)圖像的深度語義分割:網(wǎng)絡(luò)結(jié)構(gòu)

    覆蓋了圖像的全部、一半和小部分。他們被融合為全局先驗(yàn)信息;在c的最后部分將之前的金字塔特征映射與原始特征映射concate起來;在進(jìn)行卷積,生成d中的最終預(yù)測(cè)圖??偨Y(jié)基于深度學(xué)習(xí)的圖像語義分割
    發(fā)表于 12-28 11:06

    基于深度學(xué)習(xí)的多尺幅深度網(wǎng)絡(luò)監(jiān)督模型

    針對(duì)場(chǎng)景標(biāo)注中如何產(chǎn)生良好的內(nèi)部視覺信息表達(dá)和有效利用上下文語義信息兩個(gè)至關(guān)重要的問題,提出一種基于深度學(xué)習(xí)的多尺度深度網(wǎng)絡(luò)
    發(fā)表于 11-28 14:22 ?0次下載
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的多尺幅<b class='flag-5'>深度</b>網(wǎng)絡(luò)<b class='flag-5'>監(jiān)督</b><b class='flag-5'>模型</b>

    分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法

    隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展及其在語義分割領(lǐng)域的廣泛應(yīng)用,語義分割效果得到顯著提升。對(duì)基于
    發(fā)表于 03-19 14:14 ?21次下載
    分析總結(jié)基于<b class='flag-5'>深度</b>神經(jīng)網(wǎng)絡(luò)的圖像<b class='flag-5'>語義</b><b class='flag-5'>分割</b>方法

    結(jié)合雙目圖像的深度信息跨層次特征的語義分割模型

    為改善單目圖像語義分割網(wǎng)絡(luò)對(duì)圖像深度變化區(qū)域的分割效果,提出一種結(jié)合雙目圖像的深度信息和跨層次特征進(jìn)行互補(bǔ)應(yīng)用的
    發(fā)表于 03-19 14:35 ?21次下載
    結(jié)合雙目圖像的<b class='flag-5'>深度</b>信息跨層次特征的<b class='flag-5'>語義</b><b class='flag-5'>分割</b><b class='flag-5'>模型</b>

    基于深度學(xué)習(xí)的三維點(diǎn)云語義分割研究分析

    近年來,深度傳感器和三維激光掃描儀的普及推動(dòng)了三維點(diǎn)云處理方法的快速發(fā)展。點(diǎn)云語義分割作為理解三維場(chǎng)景的關(guān)鍵步驟,受到了研究者的廣泛關(guān)注。隨著深度學(xué)
    發(fā)表于 04-01 14:48 ?16次下載
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的三維點(diǎn)云<b class='flag-5'>語義</b><b class='flag-5'>分割</b>研究分析

    基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法

    對(duì)應(yīng)用于圖像語義分割的幾種深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行簡單介紹,接著詳細(xì)闡述了現(xiàn)有主流的基于深度神經(jīng)網(wǎng)絡(luò)的圖像
    發(fā)表于 04-02 13:59 ?11次下載
    基于<b class='flag-5'>深度</b>神經(jīng)網(wǎng)絡(luò)的圖像<b class='flag-5'>語義</b><b class='flag-5'>分割</b>方法

    基于SEGNET模型的圖像語義分割方法

    使用原始 SEGNET模型對(duì)圖像進(jìn)行語義分割時(shí),未對(duì)圖像中相鄰像素點(diǎn)間的關(guān)系進(jìn)行考慮,導(dǎo)致同一目標(biāo)中像素點(diǎn)類別預(yù)測(cè)結(jié)果不一致。通過在 SEGNET結(jié)構(gòu)中加入一條自上而下的通道,使得 SEGNET包含
    發(fā)表于 05-27 14:54 ?15次下載

    模型學(xué)習(xí)可轉(zhuǎn)移的語義分割表示方面的有效性

    當(dāng)前語義分割任務(wù)存在一個(gè)特別常見的問題是收集 groundtruth 的成本和耗時(shí)很高,所以會(huì)使用預(yù)訓(xùn)練。例如監(jiān)督分類或自監(jiān)督特征提取,通常用于訓(xùn)練
    的頭像 發(fā)表于 05-18 11:35 ?882次閱讀
    <b class='flag-5'>模型</b>在<b class='flag-5'>學(xué)習(xí)</b>可轉(zhuǎn)移的<b class='flag-5'>語義</b><b class='flag-5'>分割</b>表示方面的有效性

    CVPR 2023 | 華科&amp;MSRA新作:基于CLIP的輕量級(jí)開放詞匯語義分割架構(gòu)

    Adapter Network (SAN)的新框架,用于基于預(yù)訓(xùn)練的視覺語言模型進(jìn)行開放語義分割。該方法將語義
    的頭像 發(fā)表于 07-10 10:05 ?1349次閱讀
    CVPR 2023 | 華科&amp;MSRA新作:基于CLIP的輕量級(jí)開放詞匯<b class='flag-5'>語義</b><b class='flag-5'>分割</b>架構(gòu)

    基于深度學(xué)習(xí)的點(diǎn)云分割的方法介紹

      摘 要:點(diǎn)云分割是點(diǎn)云數(shù)據(jù)理解中的一個(gè)關(guān)鍵技術(shù),但傳統(tǒng)算法無法進(jìn)行實(shí)時(shí)語義分割。近年來深度學(xué)習(xí)被應(yīng)用在點(diǎn)云
    發(fā)表于 07-20 15:23 ?3次下載

    深度學(xué)習(xí)圖像語義分割指標(biāo)介紹

    深度學(xué)習(xí)在圖像語義分割上已經(jīng)取得了重大進(jìn)展與明顯的效果,產(chǎn)生了很多專注于圖像語義分割
    發(fā)表于 10-09 15:26 ?551次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>圖像<b class='flag-5'>語義</b><b class='flag-5'>分割</b>指標(biāo)介紹

    圖像分割語義分割中的CNN模型綜述

    圖像分割語義分割是計(jì)算機(jī)視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度
    的頭像 發(fā)表于 07-09 11:51 ?1521次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品