本文的12篇文章總結(jié)了當前主流的分割網(wǎng)絡(luò)及其結(jié)構(gòu),涵蓋從編解碼結(jié)構(gòu)到解碼器設(shè)計;從感受野到多尺度融合;從CNN到RNN與CRF;從2D分割到3D分割;從語義分割到實例分割和全景分割網(wǎng)絡(luò),感興趣的朋友可以仔細研讀每一篇文章。
1 FCN
Fully Convolutional Network(FCN)是神經(jīng)網(wǎng)絡(luò)用于圖像分割任務(wù)的鼻祖,后續(xù)提出的大部分基于編解碼結(jié)構(gòu)的圖像分割網(wǎng)絡(luò)都是從FCN上發(fā)展、改進而來的。
FCN用卷積層替換了分類網(wǎng)絡(luò)結(jié)構(gòu)中的全連接層,從而得到稠密的分割結(jié)果,實現(xiàn)端到端訓練。
同時,網(wǎng)絡(luò)還將不同尺度下的特征信息進行融合,實現(xiàn)更細節(jié)的圖像分割。
【圖像分割模型】從FCN說起
2 SegNet
SegNet在FCN的基礎(chǔ)上增加了解碼器,形成目前分割任務(wù)中最流行的編解碼結(jié)構(gòu),并給出了不同解碼器對效果的影響和原因。
此外,由于應(yīng)用了基于位置信息的加碼過程,相比較FCN而言,SegNet中的對應(yīng)結(jié)構(gòu)的體量要小得多。
【圖像分割模型】編解碼結(jié)構(gòu)SegNet
3 空洞卷積
編解碼結(jié)構(gòu)中,為了平衡空間尺寸與計算量,同時增大網(wǎng)絡(luò)結(jié)構(gòu)的感受野,通常會對輸入圖像進行一定的下采樣。為了恢復分割結(jié)果的空間分辨率,解碼器往往需要應(yīng)用上采樣或反卷積。
但是,基于插值的上采樣效果通常不理想,而反卷積操作則增加了計算量?;诖?,DeepLab中就提出了“空洞卷積”的概念,在不增加參數(shù)個數(shù)的基礎(chǔ)上,實現(xiàn)感受野與分辨率的控制。
【分割模型解讀】感受野與分辨率的控制術(shù)—空洞卷積
4 ENet
圖像分割的任務(wù)最終還是要落腳于實際應(yīng)用,而此前的網(wǎng)絡(luò)結(jié)構(gòu)最快也只能達到1fps,遠不及實時所需要的10fps。
ENet基于空洞卷積,實現(xiàn)了NVIDIA TX1上分辨率480x320下的21.1fps。
此外,文中還介紹了設(shè)計實時網(wǎng)絡(luò)結(jié)構(gòu)所需要考慮的6個重要內(nèi)容。
【圖像分割模型】快速道路場景分割—ENet
5 CRFasRNN
在許多計算機視覺任務(wù)中,后處理操作能夠有效提升算法的質(zhì)量。而在眾多后處理方法中,條件隨機場(CRF)的效果名列前茅。
然而,CRF的理論性強,應(yīng)用起來不方便。因此,CRFasRNN中提出以RNN的形式實現(xiàn)CRF的解決方案,從而讓基于CRF的后處理變得簡單。
【圖像分割模型】以RNN形式做CRF后處理—CRFasRNN
6 PSPNet
不同感受野下所帶來的上下文信息對圖像分割而言十分重要,往往感受野選擇的恰當性會直接影響最終的分割效果,這種影響對極端尺寸(極大和極小)目標表現(xiàn)地尤為明顯。
為了在同一級別下融合多尺度下的上下文信息,PSPNet提出了池化金字塔結(jié)構(gòu),從而實現(xiàn)了可以理解目標所處環(huán)境的圖像分割。
【圖像分割模型】多感受野的金字塔結(jié)構(gòu)—PSPNet
7 ParseNet
盡管從網(wǎng)絡(luò)結(jié)構(gòu)看,有些網(wǎng)絡(luò)的理論感受野能夠達到非常大,但實際上,理論感受野并不能等同于實際感受野,其覆蓋和利用的信息也不夠完整。
基于這個發(fā)現(xiàn),ParseNet提出了基于池化的全局特征利用,從而實現(xiàn)全局特征與局部特征融合下的圖像分割。
文中也介紹了如何有效融合兩種特征,并利用好融合特征。
【圖像分割模型】全局特征與局部特征的交響曲—ParseNet
8 RefineNet
盡管前面的特征融合方法能夠恢復在計算過程中被下降的空間分辨率,但是這種恢復往往沒有利用完整的原始空間信息,從而導致最終結(jié)果中的信息丟失。
基于此,RefineNet設(shè)計了空間分辨率的恢復結(jié)構(gòu),實現(xiàn)了基于殘差卷積模塊(RCU)、多分辨率融合模塊(MRF)和串聯(lián)殘差池化模塊(CRP)下的高精度圖像分割。
【圖像分割模型】多分辨率特征融合—RefineNet
9 ReSeg
盡管CNN的效果不錯,但是其需要依賴人工指定的核函數(shù)實現(xiàn)計算,從而限制了上下文的處理能力。因此,ReSeg提出基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BRNN)實現(xiàn)分割,來克服這種不足。
在ReNet的基礎(chǔ)上,ReSeg通過依次掃描互相垂直的兩個方向,實現(xiàn)不同時序下的特征提取。
【圖像分割模型】用BRNN做分割—ReSeg
10 LSTM-CF
除了單純基于2D的RGB圖像的分割外,圖像分割任務(wù)的完成還可以利用深度信息進行輔助,從而實現(xiàn)紋理信息下無法判斷的分割。
LSTM-CF基于ReNet和空洞卷積,實現(xiàn)結(jié)合了深度信息的圖像分割。為精度提升和深度信息利用提供了一種思路。
【圖像分割模型】BRNN下的RGB-D分割—LSTM-CF
11 DeepMask
除了語義分割,圖像分割中還有另外兩種類別的任務(wù):實例分割和全景分割。
我們通過DeepMask,給出了實例分割下的網(wǎng)絡(luò)的設(shè)計思路。DeepMask可以同時實現(xiàn)前背景分割、前景語義分割和前景實例分割。
【圖像分割模型】實例分割模型—DeepMask
12 全景分割
語義分割與實例分割任務(wù)雖然相似,但是由于度量不同,二者無法直接結(jié)合。為了實現(xiàn)整圖內(nèi)things類別和stuff類別的同時分割,全景分割任務(wù)提出了新的度量。
全景分割任務(wù)下,圖像內(nèi)的每個像素點都有其對應(yīng)的語義標簽和實例標簽(things類別),從而能夠最大程度上地理解整幅圖像。
-
解碼器
+關(guān)注
關(guān)注
9文章
1143瀏覽量
40742 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7568瀏覽量
88796
原文標題:當今主流分割網(wǎng)絡(luò)有哪些?12篇文章一次帶你看完
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論