Ⅰ.介紹
交通場景分割是智能車輛在檢測障礙物、規(guī)劃路徑和自主導(dǎo)航中的基本任務(wù)。語義分割,也稱為圖像分析或圖像理解[1],旨在將圖像劃分為預(yù)定義的非重疊區(qū)域并將其轉(zhuǎn)換為抽象語義信息。近年來,隨著計(jì)算機(jī)硬件特別是圖形處理單元(GPU)的快速發(fā)展,大規(guī)模標(biāo)記數(shù)據(jù)的出現(xiàn),深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)在圖像分類和目標(biāo)檢測中的應(yīng)用迅速發(fā)展,并已成為當(dāng)前主流的圖像分割方法。最近,大多數(shù)研究都致力于通過使網(wǎng)絡(luò)更深更廣來提高語義分割的準(zhǔn)確性。然而,增加參數(shù)往往以犧牲計(jì)算機(jī)的內(nèi)存為代價(jià),并導(dǎo)致網(wǎng)絡(luò)速度較慢。因此,如何在保證實(shí)時(shí)功能的前提下提高準(zhǔn)確性是深度學(xué)習(xí)中最重要的任務(wù)之一。
深度傳感器的出現(xiàn)使得可以獲得深度信息,其包含比RGB圖像更多的位置信息。將深度圖應(yīng)用于圖像語義分割有兩種方法:一種是將原始深度圖像和RGB圖像組合成四通道RGB-D圖像作為CNN輸入[2] - [4];另一種是將包含更豐富深度信息和RGB圖像的圖像分別輸入到兩個(gè)CNN中[5] - [7]。具體地,借助于關(guān)于深度圖像中提供的對象關(guān)系的豐富信息,兩種方法都可以實(shí)現(xiàn)比僅使用RGB圖像更好的性能。但是,將數(shù)據(jù)輸入兩個(gè)CNN會(huì)增加導(dǎo)致網(wǎng)絡(luò)速度變慢的參數(shù)數(shù)量。因此,在本文中,為了提高精度,將視差、高度和角度圖(DHA)與RGB圖像融合成6通道RGB-DHA圖并直接用作輸入數(shù)據(jù)。
本文著重于構(gòu)建一個(gè)性能良好的快速功能語義分割網(wǎng)絡(luò),特別是對于駕駛員更關(guān)心的道路目標(biāo)。因此,提出了一種新的網(wǎng)絡(luò)架構(gòu),然后添加深度圖及其導(dǎo)出的高度和范數(shù)角度圖來訓(xùn)練網(wǎng)絡(luò)以獲得更高的精度。主要工作如下:
一個(gè)名為D-AlexNet網(wǎng)絡(luò)的完全卷積神經(jīng)網(wǎng)絡(luò)是基于AlexNet [8]開發(fā)的,它具有一個(gè)包含多個(gè)卷積層的簡單結(jié)構(gòu),以提高網(wǎng)絡(luò)的前向速度。
D-AlexNet實(shí)現(xiàn)2.2x +參考加速,并將參數(shù)減少39倍以上。
6通道RGB-DHA地圖可以在語義分割中獲得比僅使用RGB圖像作為輸入更好的結(jié)果,尤其是用于識(shí)別交通場景中的道路目標(biāo),例如行人和汽車。
Ⅱ. 相關(guān)工作
A.RGB語義分割
完全卷積網(wǎng)絡(luò)(FCN)[9]用卷積層替換傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的最后一個(gè)完全連接層,這為FCN應(yīng)用于語義分割奠定了基礎(chǔ)。由L.C.Chen等人提出的Deeplab [10]通過使用孔算法減小步幅和條件隨機(jī)場來微調(diào)網(wǎng)絡(luò)獲得了更好的結(jié)果。 SegNet [11],[12]通過使用編碼器 - 解碼器結(jié)構(gòu)從較高層恢復(fù)具有來自較低層的空間信息的特征圖來實(shí)現(xiàn)像素級(jí)語義分割。在[13],[14]中,使用多尺度特征集合來提高性能。 PSPNet [15]通過聚合上下文信息來完成預(yù)測。
在現(xiàn)有硬件上實(shí)時(shí)執(zhí)行分段。一些方法已被用于加速網(wǎng)絡(luò)。 SegNet [12]通過減少網(wǎng)絡(luò)中的層數(shù)來提高前向速度。 A. Chaurasia等。 [16]直接將編碼器塊鏈接到相應(yīng)的解碼器以減少處理時(shí)間。 Z. Hengshuang等[17] 提出了基于壓縮PSPNet的圖像級(jí)聯(lián)網(wǎng)絡(luò),該網(wǎng)絡(luò)在適當(dāng)?shù)?a target="_blank">標(biāo)簽指導(dǎo)下包含多分辨率分支,以產(chǎn)生實(shí)時(shí)推斷。
B.具有深度信息的語義分割
與單個(gè)RGB圖像相比,深度圖包含更多位置信息,這有利于語義分割。在[18]中,原始深度圖像被簡單地視為單通道圖像,然后應(yīng)用CNN來提取室內(nèi)語義分割的特征。在[5]中,深度信息被用作三個(gè)通道:水平視差、地面高度和范數(shù)角。Qi等人 [19]提出了一個(gè)3D圖形神經(jīng)網(wǎng)絡(luò)(3DGNN),它建立了k-最近鄰圖,并最終提升了預(yù)測。上述工作證明,使用更多特征信息作為訓(xùn)練網(wǎng)絡(luò)的輸入有助于提高語義分割的準(zhǔn)確性。
III.網(wǎng)絡(luò)體系結(jié)構(gòu)
一般而言,使用更深層的網(wǎng)絡(luò)結(jié)構(gòu)將得到更好的語義分割,盡管它通常以犧牲具有許多訓(xùn)練參數(shù)和更長的運(yùn)行時(shí)間為代價(jià),這不能滿足智能駕駛的實(shí)時(shí)要求。為了直觀地解決這個(gè)問題,我們認(rèn)為減少網(wǎng)絡(luò)參數(shù)和簡化網(wǎng)絡(luò)模型可以加速網(wǎng)絡(luò),而且,添加深度信息可以提高網(wǎng)絡(luò)性能。由AlexNet [8]和N. Hyeonwoo [20]提出的基于VGG16網(wǎng)絡(luò)的編碼器 - 解碼器網(wǎng)絡(luò)架構(gòu)的推動(dòng),我們提出的深度完全卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)如圖1所示,包括11個(gè)卷積層、3個(gè)匯集層、3個(gè)上采樣層和1個(gè)softmax層。
在新的網(wǎng)絡(luò)結(jié)構(gòu)中,AlexNet通過以下方式進(jìn)行修改,使其適用于像素級(jí)語義分段任務(wù):
為了使網(wǎng)絡(luò)適應(yīng)不同大小的圖像,刪除了AlexNet的完整連接層。然后,第一卷積層的步幅從4變?yōu)?,最大匯集層的內(nèi)核大小從3×3變?yōu)?×2。
實(shí)驗(yàn)結(jié)果表明,卷積層中包結(jié)構(gòu)的存在不能提高最終語義分割的準(zhǔn)確性。因此,我們刪除了第二、第四和第五卷積數(shù)據(jù)包并刪除了兩個(gè)LRN層。
內(nèi)部協(xié)變量的存在將增加深度網(wǎng)絡(luò)訓(xùn)練的難度。 本文在每個(gè)卷積層和ReLU層之間添加了批量歸一化層來解決這個(gè)問題。
所有卷積層的卷積核被統(tǒng)一為3×3大小,卷積核輸出的數(shù)量為96。
參考Z.D.Matthew等人使用的上采樣方法[21],我們在匯集過程中記錄每個(gè)匯集窗口的最大特征值位置,并將其置于上采樣過程中的相應(yīng)位置。解碼器是編碼器的鏡像結(jié)構(gòu),除了其內(nèi)核大小為1×1的第六個(gè)卷積層。解碼器網(wǎng)絡(luò)的輸出是K個(gè)特征映射,然后將其饋送到softmax層以產(chǎn)生K通道類概率圖,其中K是類的數(shù)量。分割的結(jié)果是圖像的每個(gè)像素對應(yīng)于具有最大預(yù)測概率的類。
Ⅳ.多特征地圖
與使用原始深度信息學(xué)習(xí)深度網(wǎng)絡(luò)相比,DHA圖像可以包含更豐富的圖像特征信息。該過程包括以下步驟。
A.水平視差圖
從Cityscapes數(shù)據(jù)集獲得的左圖像和右圖像可用于生成具有立體匹配算法的視差圖。根據(jù)匹配程度,立體視覺匹配算法可以分為三類:局部匹配算法、半全局匹配算法和全局匹配算法。全局匹配算法獲得最高的匹配精度和最差的實(shí)時(shí)性能。局部匹配算法是最快的,但其匹配精度非常低。
圖1. D-AlexNet網(wǎng)絡(luò)的結(jié)構(gòu)
半全局匹配算法可以更好地匹配精度和實(shí)時(shí)計(jì)算需求,因此本文選擇此方法來獲取視差圖。
M. Dongbo [22]提出的邊緣保持平滑方法用于通過優(yōu)化粗略視差圖并使視差值更連續(xù)來提高分割精度。
B. 地面以上的高度
基于所獲得的視差圖,可以通過等式(1)和(2)獲得對應(yīng)于圖像坐標(biāo)系中的P'(u,v)像素的世界坐標(biāo)系中的P(x,y,z)點(diǎn),
其中x和y是世界坐標(biāo)系中點(diǎn)P的坐標(biāo),z是點(diǎn)P和相機(jī)之間的距離,f和b分別是攝像機(jī)的焦距和兩個(gè)攝像機(jī)的基線長度,fy和Cy是相機(jī)的內(nèi)部參數(shù),y是像素的高度。由于攝像機(jī)的安裝不能保證與地平面完全平行,因此需要進(jìn)行校正。選擇視差圖中的地面區(qū)域的一部分,并且使用最小二乘法來擬合地面。通過假設(shè)擬合的地平面方程是Y = aX + bZ + c,a,b和c的值可以通過等式(3)獲得。在校正地之后,可以通過等式(4)獲得實(shí)際像素高度。
在高度圖中,天空、建筑物和樹對應(yīng)于較大的高度值,而諸如車輛和行人的較重要的對象對應(yīng)于相對較小的高度值。為了突出重要目標(biāo),使用等式(5)來變換對應(yīng)于每個(gè)像素的高度值,以生成高度值在0到255之間的高度圖像。
C.曲面法線
對于城市交通場景,一般來說,路面是水平的,物體的表面,如建筑物、交通標(biāo)志、車輛等是垂直的。根據(jù)這些特征,可以使用算法在盡可能多的點(diǎn)上找到與局部估計(jì)的表面法線方向最對齊或最正交的方向。因此,為了利用這種結(jié)構(gòu),由G . Saurabh等人提出的算法[ 5 ]用于確定重力方向。
最后,通過計(jì)算像素法線方向和預(yù)測重力方向之間的角度,可以獲得所需的角度信息。
V. 實(shí)驗(yàn)與分析
實(shí)驗(yàn)是在Caffe學(xué)習(xí)平臺(tái)上進(jìn)行的。此外,我們的所有實(shí)驗(yàn)都是在表I所示的軟件和硬件上進(jìn)行的。
A.數(shù)據(jù)集和評(píng)估指標(biāo)
我們將我們的系統(tǒng)應(yīng)用于最近的城市場景理解數(shù)據(jù)——城市風(fēng)景,其中包含5000幅精細(xì)和20000幅粗注釋圖像。此外,數(shù)據(jù)集提供由立體相機(jī)捕獲的左視圖和右視圖,從而提供獲得視差圖和深度圖的機(jī)會(huì)。在這篇論文中,選擇了5000幅經(jīng)過精細(xì)注釋的圖像,并將其分成訓(xùn)練、驗(yàn)證和測試集。這些集合分別包含2,975,500和1,525幅圖像。圖像大小被轉(zhuǎn)換為200×400,以縮短訓(xùn)練時(shí)間并減少內(nèi)存消耗。為了標(biāo)記重要的交通信息,交通場景分為11種類別包括道路、道路邊界、建筑物、電線桿、交通標(biāo)志、樹木、草坪、天空、人、汽車、自行車或摩托車,全局準(zhǔn)確率和網(wǎng)絡(luò)轉(zhuǎn)發(fā)時(shí)間都被用于評(píng)估。
B.訓(xùn)練過程
在訓(xùn)練過程中,卷積層的權(quán)重以與AlexNet相同的方式初始化,以及H.Kaiming等人使用的方法[23]用于初始化批量標(biāo)準(zhǔn)化層的重量。交叉熵被用作訓(xùn)練網(wǎng)絡(luò)和計(jì)算損失值的損失函數(shù)。在反向傳播階段,采用隨機(jī)梯度下降來優(yōu)化網(wǎng)絡(luò)權(quán)重。初始學(xué)習(xí)率和動(dòng)量分別設(shè)定為0.01和0.9。另外,將重量衰減設(shè)定為0.0005以防止網(wǎng)絡(luò)過度擬合。值得注意的是,為了保持?jǐn)?shù)據(jù)的純度并簡化培訓(xùn)過程,我們在沒有數(shù)據(jù)增加的情況下訓(xùn)練我們的網(wǎng)絡(luò),并且沒有使用其他數(shù)據(jù)集的預(yù)訓(xùn)練模型。
對于每300個(gè)培訓(xùn)時(shí)間,我們對驗(yàn)證集進(jìn)行了準(zhǔn)確性評(píng)估并保存了快照?;赗GB-DHA圖像的驗(yàn)證準(zhǔn)確度,訓(xùn)練損失值曲線如圖2所示。更多迭代可能意味著更高的準(zhǔn)確度。但是,當(dāng)準(zhǔn)確度和損失開始收斂時(shí),停止訓(xùn)練是可行的。因此,對網(wǎng)絡(luò)進(jìn)行了10000次迭代訓(xùn)練,選擇具有最高精度的Caffe模型作為最終用于場景分割的模型。
圖2.不同網(wǎng)絡(luò)的訓(xùn)練損失和準(zhǔn)確度曲線。
C.比較和分析
我們首先評(píng)估了我們提出的網(wǎng)絡(luò)如何有效地加速語義分割,將SegNet [11]和SegNet-basic [12]作為基線。當(dāng)將RGB圖像和RGB-DHA圖像作為輸入數(shù)據(jù)時(shí),網(wǎng)絡(luò)的性能結(jié)果如表II所示。我們提出的網(wǎng)絡(luò)結(jié)構(gòu)比SegNet快2.2倍,比SegNet-basic快1.8倍。從圖2和表II中我們可以發(fā)現(xiàn),我們提出的架構(gòu)可以通過競爭性分段結(jié)果獲得更好的實(shí)時(shí)結(jié)果。此外,對于每個(gè)網(wǎng)絡(luò)幀,使用RGB-DHA圖像獲得的驗(yàn)證精度高于使用RGB圖像獲得的驗(yàn)證精度,這也表明更多特征信息對于改善網(wǎng)絡(luò)性能是有用的。
圖3.測試集中的語義分段結(jié)果示例
為了進(jìn)一步了解每個(gè)特征圖中的效率增益,我們首先將從第4節(jié)獲得的三個(gè)特征圖與RGB圖像合并為4通道圖像,然后將所有3個(gè)特征圖像與RGB圖像合并為6通道圖像。之后,4通道和6通道圖像都被用作訓(xùn)練網(wǎng)絡(luò)的輸入數(shù)據(jù)。測試結(jié)果如表Ⅲ所示,從中可以得出結(jié)論:與基于3通道圖像的圖像相比,基于4通道和6通道圖像的分割精度明顯提高。在相同的訓(xùn)練參數(shù)下,從RGB-D,RGB-H,RGB-A和RGB-DHA圖像獲得的全局精度比從原始RGB圖像獲得的全局精度分別為3.7%、2.1%、3%和4%。 以RDB-DHA 6通道圖像為輸入,我們提出的系統(tǒng)最終實(shí)現(xiàn)了73.4%的分割精度。
圖3顯示了我們的網(wǎng)絡(luò)模型的測試集上的語義分段結(jié)果,分別以3通道,4通道和6通道作為輸入。如圖所示,基于RGB圖像獲得的分割結(jié)果有時(shí)是粗糙的,并且在道路上或在不同類別的邊界輪廓周圍存在許多錯(cuò)誤分類的像素。例如,在圖3(b)的左圖中,路面中的許多像素被錯(cuò)誤分類為人行道。基于四通道圖像的效果通常比基于RGB三通道圖像的效果更好,并且RGB-DHA圖像可以進(jìn)一步提高分割精度,其顯示更少的錯(cuò)誤分類點(diǎn)。
此外,當(dāng)使用RGB-DHA圖像作為凈輸入時(shí),諸如行人和汽車的道路目標(biāo)比使用RGB圖像作為凈輸入具有更高的分段精度。例如,行人段準(zhǔn)確度從79%上升到84%,汽車段精度從85.8%上升到91%。一些細(xì)節(jié)比較如圖4所示。可以看出,圖4(c)和圖4(f)中的行人和汽車具有比圖4(b)和圖4(e)更清晰的輪廓,這將有助于不同道路目標(biāo)的行為分析。
圖4.行人和汽車的詳細(xì)比較示例。
VI.結(jié)論
本文提出了一種基于新型深度完全卷積網(wǎng)絡(luò)(D-AlexNet)和多特征映射(RGB-DHA)的交通場景語義分割方法。對于Titan X GPU上的每個(gè)400×200分辨率圖像,網(wǎng)絡(luò)可以實(shí)現(xiàn)22ms的良好實(shí)時(shí)性能。從原始RGB圖像獲得視差圖、高度圖和角度圖,并融合成6通道圖像以訓(xùn)練網(wǎng)絡(luò)。實(shí)驗(yàn)表明,與使用RGB圖像作為輸入相比,使用多特征圖作為網(wǎng)絡(luò)的輸入可以實(shí)現(xiàn)4%更高的分割精度。在未來,我們將重點(diǎn)關(guān)注更高效的深度網(wǎng)絡(luò),以聯(lián)合語義分割,目標(biāo)跟蹤和參數(shù)識(shí)別。
-
gpu
+關(guān)注
關(guān)注
28文章
4876瀏覽量
130314 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5542瀏覽量
122262
原文標(biāo)題:基于多特征地圖和深度學(xué)習(xí)的實(shí)時(shí)交通場景分割
文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評(píng)論請先 登錄
相關(guān)推薦
van-自然和醫(yī)學(xué)圖像的深度語義分割:網(wǎng)絡(luò)結(jié)構(gòu)
van-自然和醫(yī)學(xué)圖像的深度語義分割:網(wǎng)絡(luò)結(jié)構(gòu)
基于四層樹狀語義模型的場景語義識(shí)別方法

主要語義分割網(wǎng)絡(luò):FCN,SegNet,U-Net以及一些半監(jiān)督方法
如何使用多中心卷積特征加權(quán)進(jìn)行圖像檢索方法

針對遙感圖像場景分類的多粒度特征蒸餾方法

分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法

結(jié)合雙目圖像的深度信息跨層次特征的語義分割模型

基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法

評(píng)論