圖像分割是根據(jù)圖像內(nèi)容對指定區(qū)域進(jìn)行標(biāo)記的計算機(jī)視覺任務(wù),簡言之就是“這張圖片里有什么,其在圖片中的位置是什么?”本文聚焦于語義分割任務(wù),即在分割圖中將同一類別的不同實例視為同一對象。
更具體地講,語義圖像分割的目標(biāo)在于標(biāo)記圖片中每一個像素,并將每一個像素與其表示的類別對應(yīng)起來。因為會預(yù)測圖像中的每一個像素,所以一般將這樣的任務(wù)稱為密集預(yù)測。
語義分割的例子,目標(biāo)是預(yù)測圖像中每一個像素的類別標(biāo)簽。
當(dāng)我們有越來越多要用機(jī)器執(zhí)行的任務(wù)時,為這些機(jī)器配備必需的感知器是很重要的。
自動駕駛中實時語義分割道路場景
還有一點(diǎn)要注意的是我們不會分割同一類別的實例,只需要關(guān)注每一個像素的類別。換句話講,如果在輸入圖像中有兩個目標(biāo)屬于同一類,分割映射不會將其分為單獨(dú)的兩個目標(biāo)。
相對地,實例分割模型是另一種不同的模型,該模型可以區(qū)分同一類的不同目標(biāo)。
任務(wù)表征
簡單地說,我們的目標(biāo)是要用 RGB 圖(高 x 寬 x3)或灰度圖(高 x 寬 x1)為輸入,并輸出一個分割圖,在分割圖中每個像素都包括一個用整數(shù)表示的類別標(biāo)簽(高 x 寬 x1)。
注意:為了視覺上的理解簡單起見,我標(biāo)記的是分辨率比較低的預(yù)測圖。事實上,分割標(biāo)簽的分辨率是和原始輸入圖的分辨率相對應(yīng)的。
與我們處理標(biāo)準(zhǔn)分類值的方法相似,我們通過獨(dú)熱編碼類別標(biāo)簽的方法創(chuàng)建目標(biāo)——本質(zhì)上講是要為每一個可能的類創(chuàng)建一個輸出通道。
然后我們可以利用每一個像素位深向量的 argmax 函數(shù)將預(yù)測值分解為分割映射(如上圖所示)。
也可以通過將目標(biāo)重疊在輸入圖像上來對目標(biāo)進(jìn)行觀察。
建立網(wǎng)絡(luò)架構(gòu)
針對這項任務(wù)簡單地構(gòu)建神經(jīng)網(wǎng)絡(luò)架構(gòu)的方法是簡單地堆疊大量卷積層(用 same 填充保留維度)后輸出最終的分割映射。通過特征圖的接連轉(zhuǎn)換,直接從輸入圖像學(xué)到了相對應(yīng)的分割映射;然而,在整個網(wǎng)絡(luò)中要保留完整分辨率的計算成本是很高的。
回顧深度卷積網(wǎng)絡(luò),前期的卷積層更傾向于學(xué)習(xí)低級概念,而后期的卷積層則會產(chǎn)生更高級(且專一)的特征圖。為了保持表達(dá)性,一般而言,當(dāng)我們到達(dá)更深層的網(wǎng)絡(luò)時,需要增加特征圖(通道)的數(shù)量。
對圖像分類任務(wù)而言,這不一定會造成什么問題,因為對這個任務(wù)而言,我們只需要關(guān)注圖像里面有什么(而不是目標(biāo)類別對象的位置)。因此,我們可以通過池化或逐步卷積(即壓縮空間分辨率)定期對特征圖進(jìn)行下采樣以緩和計算壓力。
常用的圖像分割模型的方法遵循編碼器/解碼器結(jié)構(gòu),在這個結(jié)構(gòu)中,我們對輸入的空間分辨率下采樣,產(chǎn)生分辨率更低的特征圖,通過學(xué)習(xí)這些特征圖可以更高效地分辨類別,還可以將這些特征表征上采樣至完整分辨率的分割圖。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4772瀏覽量
100845 -
計算機(jī)
+關(guān)注
關(guān)注
19文章
7509瀏覽量
88078
發(fā)布評論請先 登錄
相關(guān)推薦
評論