由電子科技大學(xué)用國產(chǎn)深度學(xué)習(xí)框架曠視天元MegEngine開發(fā)的雙目視覺立體匹配算法CREStereo ( CREStereo: Cascaded REcurrent Stereo matching network),CREStereo立體匹配算法是一種基于級聯(lián)循環(huán)網(wǎng)絡(luò)的立體匹配算法,旨在通過使用上下文推理來更好地理解場景中不同物體和表面之間的關(guān)系,從而提高立體匹配的準(zhǔn)確性和效率。這使得網(wǎng)絡(luò)能夠更加確切地決定每個像素的深度,從而產(chǎn)生更準(zhǔn)確的深度圖和3D重建。
1 前言
立體匹配是計算機(jī)視覺的重要領(lǐng)域,通過給定一對經(jīng)過校正的圖像,計算對應(yīng)像素之間的位移,即視差。立體匹配算法近年來因卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)而獲得了巨大進(jìn)步。然而,由于薄結(jié)構(gòu)、非理想的校正、攝像頭模塊不一致以及各種復(fù)雜場景等實(shí)際操作困難因素,從智能手機(jī)等消費(fèi)級設(shè)備拍攝的真實(shí)圖像對中準(zhǔn)確提取差異仍然是一個巨大的挑戰(zhàn)。為了解決這些問題,作者提出了CREStereo,即級聯(lián)循環(huán)立體匹配網(wǎng)絡(luò),其特點(diǎn)是采用分層網(wǎng)絡(luò)以一種從粗到細(xì)的方式遞歸地更新視差,并使用疊堆式級聯(lián)架構(gòu)進(jìn)行高分辨率推理;設(shè)計自適應(yīng)群局部相關(guān)層處理非理想校準(zhǔn)問題;引入含有更豐富的光照、紋理和形狀變化的新合成數(shù)據(jù)集以更好地適應(yīng)現(xiàn)實(shí)場景。CREStereo在Middlebury和ETH3D等公共基準(zhǔn)測試中的表現(xiàn)明顯優(yōu)于現(xiàn)有方法,并極大地提高了恢復(fù)視差的準(zhǔn)確性。其主要貢獻(xiàn)可以總結(jié)為:
為實(shí)際立體匹配提出了級聯(lián)循環(huán)網(wǎng)絡(luò)和疊堆式級聯(lián)架構(gòu);
設(shè)計自適應(yīng)群相關(guān)層來處理非理想校準(zhǔn)問題;
創(chuàng)建新的合成數(shù)據(jù)集以更好地推廣到現(xiàn)實(shí)世界場景;
2 相關(guān)背景
視覺領(lǐng)域中的立體匹配是一個具有挑戰(zhàn)性的問題。傳統(tǒng)算法可以分為局部和全局方法。局部方法使用支持窗口計算匹配成本,而全局方法將立體匹配視為一個優(yōu)化問題。深度神經(jīng)網(wǎng)絡(luò)在立體匹配任務(wù)的性能表現(xiàn)越來越成熟,包括2D和3D的方法。對于真實(shí)世界圖像的立體匹配仍是一個少有探索的問題,但是已經(jīng)有了一些解決方案,比如自適應(yīng)方法、小波合成網(wǎng)絡(luò)和域自適應(yīng)。同時,為訓(xùn)練深度立體模型,合成數(shù)據(jù)集是不可或缺的。盡管現(xiàn)有的合成數(shù)據(jù)集對于模型訓(xùn)練提供了高精度且密集的ground truth,但是這些數(shù)據(jù)集仍有許多限制,如對象形狀的變化范圍有限,失真/光流值的分布也較為局限。
3 方法
3.1 Adaptive Group Correlation Layer - 自適應(yīng)組相關(guān)層(AGCL)
作者提出了一種自適應(yīng)組相關(guān)層(AGCL)用于消除實(shí)際場景中立體相機(jī)校準(zhǔn)不完美的影響。為了減少匹配的不確定性,僅在局部窗口中匹配點(diǎn),通過加入注意力模塊來聚合全局上下文信息。作者采用2D-1D交替本地搜索策略來提高匹配精度,而且使用形變搜索窗口來減少對遮擋或無紋理區(qū)域的依賴。此外,作者引入組相關(guān)以逐組計算局部相關(guān)性,從而顯著降低了內(nèi)存消耗和計算成本。
其中,局部關(guān)鍵點(diǎn)注意力是實(shí)現(xiàn)局部窗口匹配的核心,公式中的位置編碼增強(qiáng)了特征映射的位置依賴性。形變搜索窗口將搜索窗口的形狀更改為內(nèi)容自適應(yīng)形狀,以此來更好地處理遮擋和無紋理區(qū)域。最后,組相關(guān)機(jī)制通過分組計算本地相關(guān)性,來進(jìn)一步提高匹配精度。除此之外,2D-1D交替本地搜索策略能夠提高網(wǎng)絡(luò)的復(fù)雜度,以細(xì)化匹配結(jié)果。這些創(chuàng)新性設(shè)計使得AGCL領(lǐng)先于現(xiàn)有的視覺匹配方法,在立體匹配中具有廣泛的應(yīng)用前景。
局部匹配公式:
形變搜索窗口公式:
3.2 Cascaded Recurrent Network - 級聯(lián)循環(huán)網(wǎng)絡(luò)
作者提出了一種級聯(lián)遞歸網(wǎng)絡(luò)方法用于匹配光流。采用遞歸更新模塊(RUM)和自適應(yīng)組關(guān)聯(lián)層(AGCL)來構(gòu)建級聯(lián)遞歸網(wǎng)絡(luò)。分別在不同級聯(lián)層中計算特征圖的相關(guān)性,并獨(dú)立地用幾次迭代來細(xì)化視差。除了級聯(lián)的第一層外,其他級聯(lián)層均采用來自上一級的預(yù)測上采樣版本作為初始化。最后,使用凸上采樣獲得輸入分辨率的最終預(yù)測。
3.3 Stacked Cascades for Inference - 堆疊級聯(lián)用于推理
作者提出了一種帶有捷徑的堆疊級聯(lián)架構(gòu)用于推理。預(yù)先對圖像對進(jìn)行下采樣構(gòu)建圖像金字塔,并將它們饋送到相同訓(xùn)練的特征提取網(wǎng)絡(luò)中,以利用多層次的上下文信息。對于堆疊級聯(lián)的特定階段,該階段中的所有 RUM 與更高分辨率階段的最后一個 RUM 一起使用。在訓(xùn)練期間,堆疊級聯(lián)的所有階段共享相同的權(quán)重,因此不需要進(jìn)行微調(diào)。
3.4 Loss Function - 損失函數(shù)
作者所使用的損失函數(shù)采用類似于RAFT的指數(shù)加權(quán)L1距離,并使用上采樣算子將輸出序列調(diào)整到完整的預(yù)測分辨率。
3.5 Synthetic Training Data - 合成訓(xùn)練數(shù)據(jù)
作者在用于視差估計網(wǎng)絡(luò)訓(xùn)練的合成訓(xùn)練數(shù)據(jù)的生成過程中使用Blender生成左右圖像對和像素級準(zhǔn)確的密集視差地圖。通過多種來源擴(kuò)展場景中主要內(nèi)容的模型的形狀,包括基于ShapeNet數(shù)據(jù)集的基本內(nèi)容來源,以及Blender的sapling tree gen add-on和基本形狀結(jié)合線框修改器生成模型。在場景內(nèi)隨機(jī)放置不同類型、顏色和亮度的燈光形成復(fù)雜的光照環(huán)境,并使用真實(shí)世界圖像作為物體和場景背景的紋理。為了覆蓋不同的基線設(shè)置,努力確保生成的數(shù)據(jù)的視差分布在寬范圍內(nèi)平滑分布。
4 實(shí)驗(yàn)
4.1 數(shù)據(jù)集和評估指標(biāo)
作者所使用的數(shù)據(jù)集包括Middlebury、ETH3D和KITTI等公共基準(zhǔn)測試數(shù)據(jù)集,以及Sceneflow、Sintel和Falling Things等用于訓(xùn)練的數(shù)據(jù)集。評估指標(biāo)包括AvgErr、Bad2.0和D1-all等。其中,AvgErr表示平均誤差,Bad2.0表示視差誤差大于2像素的像素占比,D1-all表示左圖像中視差異常像素的百分比。
4.2 實(shí)施細(xì)節(jié)
作者使用PyTorch框架實(shí)現(xiàn)了Crestereo網(wǎng)絡(luò)。使用了8個NVIDIA GTX 2080Ti GPU進(jìn)行訓(xùn)練,批次大小為16。整個訓(xùn)練過程設(shè)置為300,000次迭代。使用Adam 優(yōu)化器,標(biāo)準(zhǔn)學(xué)習(xí)率為0.0004。在開始訓(xùn)練的時候,進(jìn)行了一個漸進(jìn)式預(yù)熱過程,持續(xù)6000次迭代,其中學(xué)習(xí)率從5%線性增加到標(biāo)準(zhǔn)值的100%。在180,000次迭代后,學(xué)習(xí)率會線性降低到末尾訓(xùn)練過程中標(biāo)準(zhǔn)值的5%。這個模型使用384×512的輸入大小進(jìn)行訓(xùn)練。在進(jìn)入模型之前,所有的訓(xùn)練樣本都會經(jīng)過一組數(shù)據(jù)擴(kuò)充操作。為了模擬相機(jī)模塊的不一致性和非理想矯正,我們使用多個數(shù)據(jù)擴(kuò)充技術(shù)進(jìn)行訓(xùn)練。首先,作者分別為兩個輸入應(yīng)用不對稱的色彩增強(qiáng),包括亮度、對比度和伽馬的變化。為了進(jìn)一步提高對真實(shí)世界圖像矯正誤差的抵抗力,只對右側(cè)圖像進(jìn)行空間擴(kuò)充:輕微的隨機(jī)單應(yīng)性變換和非常小范圍內(nèi)(<2像素)的垂直平移。為了避免不合適的區(qū)域上的匹配錯誤,使用高度和寬度在50到100像素之間的隨機(jī)矩形遮擋補(bǔ)丁。最后,為了適應(yīng)來自各個來源的輸入數(shù)據(jù)進(jìn)入網(wǎng)絡(luò)的訓(xùn)練輸入尺寸、立體圖像和視差的組合進(jìn)行隨機(jī)調(diào)整和剪裁操作。
4.3 消融實(shí)驗(yàn)
作者在通過消融實(shí)驗(yàn)來驗(yàn)證網(wǎng)絡(luò)組件的有效性,除了級聯(lián)堆疊中的消融實(shí)驗(yàn)外,所有評估分辨率均為768×1024。首先,比較了不同類型的相關(guān)性,發(fā)現(xiàn)使用2D和1D all-pairs相關(guān)性會導(dǎo)致準(zhǔn)確度顯著下降;其次,分析了AGCL部分的組件,固定的無學(xué)習(xí)偏移的相關(guān)窗口會降低準(zhǔn)確性,同時組相關(guān)和局部特征注意力模塊的去除也會降低準(zhǔn)確性;接著,比較了不同級聯(lián)階段的性能,并發(fā)現(xiàn)級聯(lián)的重要性;最后,引入了新的合成數(shù)據(jù)集,表明作者提出的數(shù)據(jù)集在域泛化方面更具優(yōu)勢。
5 總結(jié)
CREStereo立體匹配算法通過級聯(lián)遞歸網(wǎng)絡(luò)與自適應(yīng)相關(guān)性,能夠更好地恢復(fù)微妙的深度細(xì)節(jié),比現(xiàn)有方法更好地處理難度場景。同時,通過合成數(shù)據(jù)集的精心設(shè)計,也能更好地處理非紋理或重復(fù)紋理區(qū)域。未來可以進(jìn)行改進(jìn),以適應(yīng)各種便攜式設(shè)備,并最好實(shí)時運(yùn)行。
-
編碼
+關(guān)注
關(guān)注
6文章
962瀏覽量
55134 -
模型
+關(guān)注
關(guān)注
1文章
3434瀏覽量
49556 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5530瀏覽量
122008
原文標(biāo)題:立體匹配算法,CRestero是如何讓它變得更加準(zhǔn)確?
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
基于外極線分區(qū)的動態(tài)立體匹配算法
彩色鏡像圖像的立體匹配方法
基于蟻群優(yōu)化算法的立體匹配
雙目視覺立體匹配算法研究
基于擴(kuò)展雙權(quán)重聚合的實(shí)時立體匹配方法

基于顏色調(diào)整的立體匹配改進(jìn)算法

超像素分割的快速立體匹配

基于mean-shift全局立體匹配方法
視覺顯著性的快速區(qū)域立體匹配算法
如何使用跨尺度代價聚合實(shí)現(xiàn)改進(jìn)立體匹配算法

雙目立體計算機(jī)視覺的立體匹配研究綜述

一種基于PatchMatch的半全局雙目立體匹配算法

融合邊緣特征的立體匹配算法Edge-Gray

基于改進(jìn)自適應(yīng)權(quán)重的立體匹配優(yōu)化算法

評論