高精度的實時立體匹配網(wǎng)絡(luò)是時下研究的一個熱點,它在自動駕駛、機器人導(dǎo)航和增強現(xiàn)實等領(lǐng)域中有著廣泛的應(yīng)用。雖然近年來對立體匹配網(wǎng)絡(luò)的研究已經(jīng)取得了顯著的成果,但要同時兼顧實時性和高精度仍然是一個挑戰(zhàn)。現(xiàn)有的高精度立體匹配網(wǎng)絡(luò),通常需要在較高的分辨率建立代價空間。比如,GANet在1/3分辨率建立代價空間,PSMNet在1/4分辨率,但這會影響網(wǎng)絡(luò)的效率(GANet處理一對1242×375的圖像,需要1.8s,PSMNet需要0.41s)。
本文的動機是期望尋求一種解決方案:用高分辨率代價空間預(yù)測視差圖,以保持高的精度,同時要保持高的計算效率。
[CVPR 2021] Bilateral Grid Learning for Stereo Matching Networks
徐彬1,徐玉華1,2,*,楊曉立1,賈偉2,郭裕蘭3
( 1奧比中光,2合肥工業(yè)大學(xué),3國防科技大學(xué))
論文鏈接: https://arxiv.org/pdf/2101.01601.pdf
代碼開源: https://github.com/3DCVdeveloper/BGNet
1.創(chuàng)新點
(1)本文提出一種新的基于可學(xué)習(xí)的雙邊網(wǎng)格的代價空間上采樣模塊(Cost volume Upsampling in the learned Bilateral Grid, CUBG)?;谶@個具有邊緣保持特性的上采樣模塊,通過無參數(shù)的切片層(slicing layer)可以高效地從低分辨率的代價空間獲得高質(zhì)量的高分辨率代價空間。這樣,費時的代價聚合只需要在低分辨率執(zhí)行。該模塊能夠無縫嵌入到許多現(xiàn)有的立體匹配網(wǎng)絡(luò)(如GCNet,PSMNet,GANet等)中,在保持相當(dāng)精度的條件下取得4-29倍的加速。據(jù)我們所知,這是可微雙邊網(wǎng)格首次在立體匹配網(wǎng)絡(luò)中的應(yīng)用。
(2)基于本文提出的代價空間上采樣模塊,我們設(shè)計了一個高精度的實時立體匹配網(wǎng)絡(luò)(稱為BGNet),該網(wǎng)絡(luò)在KITTI數(shù)據(jù)集的分辨率下能夠達(dá)到39fps,且精度超過了之前所有實時立體匹配網(wǎng)絡(luò)。
2. 相關(guān)工作
基于深度學(xué)習(xí)的立體匹配網(wǎng)絡(luò)研究已經(jīng)持續(xù)了很多年。MC-CNN [1]首次使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來計算兩個圖像塊之間的匹配代價,但后續(xù)步驟(如代價聚合、視差后處理等)仍然使用傳統(tǒng)方法。DispNetC [2]是第一個端到端的立體匹配網(wǎng)絡(luò),后續(xù)的工作引入了殘差優(yōu)化模塊,對網(wǎng)絡(luò)預(yù)測的視差圖做一步的優(yōu)化。GCNet [6]首次使用3D卷積學(xué)習(xí)構(gòu)建4D代價空間,并使用soft argmin操作進(jìn)行視差回歸。
基于3D卷積的立體匹配網(wǎng)絡(luò)在各大數(shù)據(jù)集榜單上都取得了很好的結(jié)果,但是 3D卷積比2D卷積計算量大的多,現(xiàn)有的基于3D卷積的實時立體匹配網(wǎng)絡(luò)[7, 8]都是對低分辨率代價空間進(jìn)行代價聚合,得到低分辨率的視差圖,然后對視差圖進(jìn)行逐級上采樣和優(yōu)化,這種策略不如使用高分辨率代價空間計算視差圖的方法精度高。
我們的工作受到雙邊網(wǎng)格[9]的啟發(fā)。雙邊網(wǎng)格最早用于加速雙邊濾波器,主要包含三個步驟,即splat,blur和slice。splat操作對圖像進(jìn)行下采樣構(gòu)建雙邊網(wǎng)格,blur操作對雙邊網(wǎng)格進(jìn)行平滑濾波,最后通過slice操作將濾波后的雙邊網(wǎng)格上采樣到高分辨率。slice操作主要涉及在高分辨率引導(dǎo)圖的指引下進(jìn)行線性插值,因此其計算是非常高效的。
3. 方法描述
雙邊網(wǎng)格代價空間上采樣
本文采用的思路是使用3D卷積在低分辨率構(gòu)建雙邊網(wǎng)格代價空間,并通過提出的上采樣模塊(CUBG)得到高質(zhì)量的高分辨率代價空間,在高分辨率代價空間進(jìn)行視差回歸。
如圖1所示,CUBG模塊的輸入是一個低分辨率的代價空間和高分辨率的圖像特征,輸出是高分辨率的代價空間,該模塊包含雙邊網(wǎng)格的生成和slicing上采樣操作。
給定一個維度為 的低分辨率的代價空間。其中, 分別表示圖像寬度,圖像高度,視差范圍和特征通道數(shù)。我們使用一個3*3*3的3D卷積完成向雙邊網(wǎng)格的轉(zhuǎn)換,其中的維度為 , 為引導(dǎo)特征的通道數(shù)。
為了得到維度為 的三維高分辨率的代價空間(其中 和 分別是圖像寬度和高度, 是給定的最大視差值),我用雙邊網(wǎng)絡(luò)中的slicing操作進(jìn)行上采樣。slicing操作一種基于引導(dǎo)圖的無參數(shù)插值算法。slicing的操作可以表示為公式(1):
其中為低分辨率代價空間相對于高分辨率代價空間的寬度或者高度比例, 是生成的引導(dǎo)圖特征,范圍為[0,255]。不同于雙邊網(wǎng)格[9]原文,我們的雙邊網(wǎng)格是從低分辨率的代價空間中學(xué)習(xí)得到的。在本文的所有試驗,我們設(shè)置雙邊網(wǎng)格的維度為 。
嵌入式模塊
CUBG模塊可以無縫嵌入到許多現(xiàn)有的立體匹配網(wǎng)絡(luò)結(jié)構(gòu)中。在本文中,我把CUBG模塊嵌入到四種具有代表性的網(wǎng)絡(luò),分別是GCNet, PSMNet, GANet和DeepPrunerFast。嵌入后的模型用后綴BG表示。比如,GCNet-BG表示在GCNet中嵌入了CUBG模塊后的網(wǎng)絡(luò)結(jié)構(gòu)。
對于前三種網(wǎng)絡(luò)結(jié)構(gòu),我們分別在1/8, 1/8, 1/6分辨率上重新建立代價空間,然后用CUBG模塊把濾波后的代價空間分別上采樣到1/2, 1/4和1/3分辨率。對于DeepPrunerFast,類似PatchMatch的視差上、下界估計模塊和窄代價空間被1/8分辨率的完整的代價空間所代替。然后,用CUBG把濾波后的代價空間上采樣到1/2分辨率。網(wǎng)絡(luò)其余的結(jié)構(gòu)都保持不變。
BGNet
基于CUBG模塊,我們設(shè)計了一個高精度實時立體匹配網(wǎng)絡(luò)。該網(wǎng)絡(luò)主要包含四個模塊:特征提取,代價空間聚合,代價空間上采樣和殘差優(yōu)化模塊。在不使用殘差優(yōu)化的情況下(對應(yīng)BGNet),對于KITTI分辨率,速度為39fps。使用殘差優(yōu)化時(對應(yīng)BGNet+),速度為30fps。
4.實驗結(jié)果
消融實驗
為了驗證所提出CUBG上采樣模塊的有效性,我們在SceneFlow、Middlebury 2014數(shù)據(jù)集上進(jìn)行了消融實驗??梢姛o論是在合成數(shù)據(jù)集還是在真實數(shù)據(jù)集上,CUBG都優(yōu)于線性插值上采樣(LU)。尤其是在深度邊緣附近區(qū)域,CUBG優(yōu)勢更加明顯(EPE-edge)。
編輯:jq
-
自動駕駛
+關(guān)注
關(guān)注
784文章
13897瀏覽量
166698 -
卷積神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
4文章
367瀏覽量
11885
原文標(biāo)題:【CVPR2021】用于立體匹配的可學(xué)習(xí)雙邊網(wǎng)格
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論