0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于單目圖像的深度估計(jì)算法,大幅度提升基于單目圖像深度估計(jì)的精度

商湯科技SenseTime ? 來(lái)源:未知 ? 作者:李倩 ? 2018-06-04 15:46 ? 次閱讀

基于視覺(jué)的自動(dòng)駕駛系統(tǒng)需要基于單目攝像頭獲取的圖像,判斷當(dāng)前車輛與周圍車輛、行人和障礙物的距離,距離判斷的精度對(duì)自動(dòng)駕駛系統(tǒng)的安全性有著決定性的影響,商湯科技在CVPR 2018發(fā)表亮點(diǎn)報(bào)告(Spotlight)論文,提出基于單目圖像的深度估計(jì)算法,大幅度提升基于單目圖像深度估計(jì)的精度,進(jìn)一步提升自動(dòng)駕駛系統(tǒng)的安全性。該論文由商湯科技見(jiàn)習(xí)研究員羅越在研究院研究員任思捷指導(dǎo)下完成。本文為商湯科技CVPR 2018論文解讀第5期。

簡(jiǎn)介

基于單目圖像的深度估計(jì)算法具有方便部署、計(jì)算成本低等優(yōu)點(diǎn),受到了學(xué)術(shù)界和工業(yè)界日益增長(zhǎng)的關(guān)注?,F(xiàn)有的單目深度估計(jì)方法通常利用單一視角的圖像數(shù)據(jù)作為輸入,直接預(yù)測(cè)圖像中每個(gè)像素對(duì)應(yīng)的深度值,這種解決方案導(dǎo)致現(xiàn)有方法通常需要大量的深度標(biāo)注數(shù)據(jù),而這類數(shù)據(jù)通常需要較高的采集成本。近年來(lái)的改進(jìn)思路主要是在訓(xùn)練過(guò)程中引入隱式的幾何約束,通過(guò)幾何變換,使用一側(cè)攝像機(jī)圖像(以下稱右圖)監(jiān)督基于另一側(cè)攝像機(jī)圖像(以下稱左圖)預(yù)測(cè)的深度圖,從而減少對(duì)數(shù)據(jù)的依賴。但這類方法在測(cè)試過(guò)程中仍然缺乏顯式的幾何約束。為了解決上述問(wèn)題,本文提出單視圖雙目匹配模型(Single View Stereo Matching, SVS),該模型把單目深度估計(jì)分解為兩個(gè)子過(guò)程,視圖合成過(guò)程和雙目匹配過(guò)程,其算法框架如圖1所示。

圖1:

單視圖雙目匹配模型的示意圖

通過(guò)這樣的分解,使得提出的模型有如下兩個(gè)優(yōu)點(diǎn):

極大地減少深度標(biāo)注數(shù)據(jù)的依賴;

在測(cè)試階段顯式地引入幾何約束。

實(shí)驗(yàn)證明,本文提出的模型僅用少量的深度標(biāo)注數(shù)據(jù)就可以在KITTI數(shù)據(jù)集上超過(guò)之前的所有單目深度估計(jì)方法,并首次僅靠單目圖像數(shù)據(jù)就超過(guò)了雙目匹配算法Block Matching的深度估計(jì)精度。

SVS模型

現(xiàn)有基于深度學(xué)習(xí)的單目深度估計(jì)方法,通常把CNN作為黑盒使用,學(xué)習(xí)圖像塊至深度值的直接映射,這類方法完全依賴高級(jí)語(yǔ)義信息作為預(yù)測(cè)深度的依據(jù),盡管有些方法在損失函數(shù)上引入一些特殊的約束條件,學(xué)習(xí)這樣的語(yǔ)義信息仍然是非常困難的。另一方面,即使這樣的映射能夠被成功訓(xùn)練,算法通常也需要大量帶深度值標(biāo)簽的真實(shí)數(shù)據(jù),而這類數(shù)據(jù)的采集成本非常高且耗時(shí),極大的限制了這類技術(shù)的適用場(chǎng)景。

基于上述分析,本文方法提出了一種新穎的面向單目深度估計(jì)的算法框架,把單目深度估計(jì)分解為兩個(gè)過(guò)程,即視圖合成過(guò)程和雙目匹配過(guò)程。模型的主要設(shè)計(jì)思路在于:

把雙目深度估計(jì)模型中有效的幾何約束顯式地結(jié)合到單目深度估計(jì)模型中,提高模型的可解釋性;

減少使用難以采集的真實(shí)深度數(shù)據(jù),從而擴(kuò)大模型的適用范圍;

整個(gè)模型以端到端的的方式訓(xùn)練,從而提升深度估計(jì)準(zhǔn)確性。

模型的視圖合成過(guò)程由視圖合成網(wǎng)絡(luò)完成,輸入一張左圖,網(wǎng)絡(luò)合成該圖像對(duì)應(yīng)的右圖;而雙目匹配過(guò)程由雙目匹配網(wǎng)絡(luò)完成,接收左圖以及合成的右圖,預(yù)測(cè)出左圖每一個(gè)像素的視差值,詳細(xì)的網(wǎng)絡(luò)結(jié)構(gòu)(如圖2所示)。

圖2:

算法網(wǎng)絡(luò)結(jié)構(gòu)圖

上半部分網(wǎng)絡(luò)對(duì)應(yīng)視圖合成網(wǎng)絡(luò)

下半部分網(wǎng)絡(luò)對(duì)應(yīng)雙目匹配網(wǎng)絡(luò)

視圖合成網(wǎng)絡(luò):

一般情況下,左圖中的像素均可以在右圖中找到匹配的像素,因此可以首先把左圖平移多個(gè)不同像素距離,得到多張不同的圖片,再使用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)組合系數(shù),把多張平移后的左圖和預(yù)測(cè)的系數(shù)組合得到預(yù)測(cè)的右圖。具體地,視圖合成網(wǎng)絡(luò)基于Deep3D [1] 模型,圖2 中的上半部分展示了視圖合成網(wǎng)絡(luò)的示意圖。輸入一張左圖,首先主干網(wǎng)絡(luò)對(duì)其提取不同尺度的特征,再經(jīng)過(guò)上采樣層把不同尺度的特征統(tǒng)一至同一個(gè)尺寸,然后經(jīng)過(guò)累加操作融合成輸出特征并預(yù)測(cè)出概率視差圖,最后經(jīng)過(guò)選擇模塊(selection module)結(jié)合概率視差圖以及輸入的左圖,得到預(yù)測(cè)的右圖。本文采用L1 損失函數(shù)訓(xùn)練這個(gè)網(wǎng)絡(luò)。

雙目匹配網(wǎng)絡(luò):

雙目匹配需要把左圖像素和右圖中其對(duì)應(yīng)像素進(jìn)行匹配,再由匹配的像素差算出左圖像素對(duì)應(yīng)的深度,而之前的單目深度估計(jì)方法均不能顯式引入類似的幾何約束。由于深度學(xué)習(xí)模型的引入,雙目匹配算法的性能近年來(lái)得到了極大的提升。本文的雙目匹配網(wǎng)絡(luò)基于DispNetC [2] 模型, 該模型目前在KITTI雙目匹配數(shù)據(jù)集上能夠達(dá)到理想的精度,其網(wǎng)絡(luò)如圖2的下半部分所示,左圖以及合成的右圖經(jīng)過(guò)幾個(gè)卷積層之后,得到的特征會(huì)經(jīng)過(guò)1D相關(guān)操作(correlation)。相關(guān)操作被證明在雙目匹配深度學(xué)習(xí)算法中起關(guān)鍵性的作用,基于相關(guān)操作,本文方法顯式地引入幾何約束;其得到的特征圖和左圖提取到的特征圖進(jìn)行拼接作為編碼-解碼網(wǎng)絡(luò)(encoder-decoder network)的輸入,并最終預(yù)測(cè)視差圖。該網(wǎng)絡(luò)的訓(xùn)練也同樣使用L1損失函數(shù)。

實(shí)驗(yàn)結(jié)果

本文在KITTI公開(kāi)數(shù)據(jù)集上對(duì)提出的模型進(jìn)行驗(yàn)證,遵循Eigen等人[3]的實(shí)驗(yàn)設(shè)置,把697張圖片作為測(cè)試圖片,其余的數(shù)據(jù)作為訓(xùn)練圖片,從定量和定性兩方面對(duì)所提出的模型進(jìn)行驗(yàn)證。

數(shù)值結(jié)果

表1總結(jié)了本文模型和其他現(xiàn)有方法結(jié)果的對(duì)比,可以看出,本文模型在大多數(shù)指標(biāo)上均達(dá)到世界領(lǐng)先水平。其中,就ARD指標(biāo)來(lái)說(shuō),提出的模型比之前最好的方法誤差減小16.8%(0.094 vs. 0.113);表中同時(shí)也顯示,經(jīng)過(guò)端到端優(yōu)化之后,SVS模型的性能能夠進(jìn)一步得到提升。

表1:

KITTI數(shù)據(jù)集上SVS模型和其他方法的數(shù)值結(jié)果

表中加粗表示性能最好的結(jié)果

可視化結(jié)果對(duì)比

圖3顯示了在KITTI Eigen測(cè)試集上的深度估計(jì)結(jié)果的可視化效果,從圖中可以看出本文提出的SVS模型能夠得到更加精準(zhǔn)的深度圖。

圖3:

在KITTI Eigen測(cè)試集上的深度估計(jì)結(jié)果的可視化

提出的SVS模型能夠得到更加準(zhǔn)確的深度圖

在其他數(shù)據(jù)集上結(jié)果的可視化

為了驗(yàn)證SVS模型在其他數(shù)據(jù)集上的泛化能力,本文將在KITTI數(shù)據(jù)集上訓(xùn)練好的SVS模型直接應(yīng)用至Cityscape和 Make3D數(shù)據(jù)集上,結(jié)果可視化效果分別展示在圖4及圖5中??梢钥吹郊词乖谟?xùn)練數(shù)據(jù)集中沒(méi)有出現(xiàn)過(guò)的場(chǎng)景,本文方法仍然可以得到合理準(zhǔn)確的深度估計(jì)結(jié)果,證實(shí)了本文方法較為強(qiáng)大的泛化能力。

圖4:

在Cityscape數(shù)據(jù)集上深度估計(jì)結(jié)果的可視化

SVS模型能夠生成理想的深度圖

圖5:

在Make3D數(shù)據(jù)集上深度估計(jì)結(jié)果的可視化

本文提出的SVS模型可以得到較為準(zhǔn)確的結(jié)果

與雙目匹配算法Block-Matching的對(duì)比:

為了進(jìn)一步確認(rèn)目前性能最優(yōu)異的單目深度估計(jì)方法和雙目深度估計(jì)方法的差距,本文在KITTI 2015雙目匹配測(cè)試集上對(duì)比了SVS模型與現(xiàn)有最優(yōu)性能的單目深度估計(jì)方法以及雙目匹配Block-Matching方法 (OCV-BM),相關(guān)結(jié)果總結(jié)在表2中,本文的SVS模型首次超越了雙目匹配Block-Matching算法。

表2:

在KITTI 2015雙目匹配測(cè)試集上的數(shù)值結(jié)果

技術(shù)潛在應(yīng)用

單目深度估計(jì)對(duì)比雙目深度估計(jì)具有方便部署、成本低等優(yōu)點(diǎn),在很多領(lǐng)域有著豐富的潛在應(yīng)用場(chǎng)景,如三維重建、增強(qiáng)現(xiàn)實(shí)等。

a) 三維重建

b) 增強(qiáng)現(xiàn)實(shí)

結(jié)論

本文提出一種簡(jiǎn)單而有效的單目深度估計(jì)模型——單視圖雙目匹配(SVS)。該模型通過(guò)把單目深度估計(jì)問(wèn)題分解為兩個(gè)子問(wèn)題,即視圖合成問(wèn)題和雙目匹配問(wèn)題,避免把神經(jīng)網(wǎng)絡(luò)模型直接作為黑盒使用,提高了模型的可解釋性。同時(shí),為了更好的解決這兩個(gè)子問(wèn)題,顯式地把幾何變換編碼到兩個(gè)子網(wǎng)絡(luò)中,提升網(wǎng)絡(luò)模型的表達(dá)能力。實(shí)驗(yàn)結(jié)果表明,該方法僅使用少量帶深度標(biāo)簽的訓(xùn)練數(shù)據(jù),就能夠超越所有之前的單目深度估計(jì)方法,并且首次僅使用單目數(shù)據(jù)就超過(guò)雙目匹配算法Block-Matching的性能,在眾多領(lǐng)域中有著豐富的潛在應(yīng)用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41090
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5557

    瀏覽量

    122587
  • 商湯科技
    +關(guān)注

    關(guān)注

    8

    文章

    557

    瀏覽量

    36699

原文標(biāo)題:CVPR 2018 | 商湯科技Spotlight論文詳解:?jiǎn)文可疃裙烙?jì)技術(shù)

文章出處:【微信號(hào):SenseTime2017,微信公眾號(hào):商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 2人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于深度估計(jì)的紅外圖像彩色化方法_戈曼

    基于深度估計(jì)的紅外圖像彩色化方法_戈曼
    發(fā)表于 03-17 10:13 ?0次下載

    UC Berkeley大學(xué)的研究人員們利用深度姿態(tài)估計(jì)深度學(xué)習(xí)技術(shù)

    器,從圖像中預(yù)測(cè)動(dòng)作。雖然在訓(xùn)練該估計(jì)器的時(shí)候需要標(biāo)注動(dòng)作,不過(guò)一旦訓(xùn)練完成,估計(jì)器在應(yīng)用到新圖片上時(shí)就無(wú)需再次訓(xùn)練了。
    的頭像 發(fā)表于 10-12 09:06 ?3002次閱讀

    基于多孔卷積神經(jīng)網(wǎng)絡(luò)的圖像深度估計(jì)模型

    針對(duì)在傳統(tǒng)機(jī)器學(xué)習(xí)方法下單幅圖像深度估計(jì)效果差、深度值獲取不準(zhǔn)確的問(wèn)題,提出了一種基于多孔卷積神經(jīng)網(wǎng)絡(luò)(ACNN)的深度
    發(fā)表于 09-29 16:20 ?5次下載
    基于多孔卷積神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>圖像</b><b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>模型

    結(jié)合雙目圖像深度信息跨層次特征的語(yǔ)義分割模型

    為改善圖像語(yǔ)義分割網(wǎng)絡(luò)對(duì)圖像深度變化區(qū)域的分割效果,提出一種結(jié)合雙目圖像
    發(fā)表于 03-19 14:35 ?21次下載
    結(jié)合雙目<b class='flag-5'>圖像</b>的<b class='flag-5'>深度</b>信息跨層次特征的語(yǔ)義分割模型

    采用自監(jiān)督CNN進(jìn)行圖像深度估計(jì)的方法

    為了提高利用深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)圖像深度信息的精確度,提出了一種采用自監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像
    發(fā)表于 04-27 16:06 ?13次下載
    采用自監(jiān)督CNN進(jìn)行<b class='flag-5'>單</b><b class='flag-5'>圖像</b><b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>的方法

    基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)算法

    ,更能充分地提取圖像信息,獲取更具有魯棒性的特征,因此基于深度學(xué)習(xí)的方法已成為二維人體姿態(tài)估計(jì)算法研究的主流方向。然而,深度學(xué)習(xí)尚在發(fā)展中,仍存在訓(xùn)練規(guī)模大等問(wèn)題,研究者們主要從設(shè)絡(luò)以
    發(fā)表于 04-27 16:16 ?7次下載
    基于<b class='flag-5'>深度</b>學(xué)習(xí)的二維人體姿態(tài)<b class='flag-5'>估計(jì)算法</b>

    密集SLAM的概率體積融合概述

    我們提出了一種利用深度密集 SLAM 和快速不確定性傳播從圖像重建 3D 場(chǎng)景的新方法。所提出的方法能夠密集、準(zhǔn)確、實(shí)時(shí)地 3D 重建場(chǎng)景,同時(shí)對(duì)來(lái)自密集
    的頭像 發(fā)表于 01-30 11:34 ?908次閱讀

    立體視覺(jué):我用相機(jī)求了個(gè)體積!

    一般而言,是無(wú)法依靠自身來(lái)完成測(cè)量的,有企業(yè)選擇讓相機(jī)動(dòng)起來(lái),但是一旦動(dòng)起來(lái)實(shí)際上也是雙目,不再是
    的頭像 發(fā)表于 03-01 11:19 ?1613次閱讀

    一種用于自監(jiān)督深度估計(jì)的輕量級(jí)CNN和Transformer架構(gòu)

    自監(jiān)督深度估計(jì)不需要地面實(shí)況訓(xùn)練,近年來(lái)受到廣泛關(guān)注。設(shè)計(jì)輕量級(jí)但有效的模型非常有意義,這樣它們就可以部署在邊緣設(shè)備上。
    的頭像 發(fā)表于 03-14 17:54 ?2812次閱讀

    介紹第一個(gè)結(jié)合相對(duì)和絕對(duì)深度的多模態(tài)深度估計(jì)網(wǎng)絡(luò)

    深度估計(jì)分為兩個(gè)派系,metric depth estimation(度量深度估計(jì),也稱絕對(duì)
    的頭像 發(fā)表于 03-21 18:01 ?7386次閱讀

    使用python和opencv實(shí)現(xiàn)攝像機(jī)測(cè)距

    我的論文方向目前是使用攝像頭實(shí)現(xiàn)機(jī)器人對(duì)人的跟隨,首先攝像頭與kinect等深度攝像頭最大的區(qū)別是無(wú)法有效獲取
    的頭像 發(fā)表于 07-03 10:01 ?3571次閱讀
    使用python和opencv實(shí)現(xiàn)<b class='flag-5'>單</b><b class='flag-5'>目</b>攝像機(jī)測(cè)距

    一種利用幾何信息的自監(jiān)督深度估計(jì)框架

    本文方法是一種自監(jiān)督的深度估計(jì)框架,名為GasMono,專門(mén)設(shè)計(jì)用于室內(nèi)場(chǎng)景。本方法通過(guò)應(yīng)用多視圖幾何的方式解決了室內(nèi)場(chǎng)景中幀間大旋轉(zhuǎn)和低紋理導(dǎo)致自監(jiān)督
    發(fā)表于 11-06 11:47 ?682次閱讀
    一種利用幾何信息的自監(jiān)督<b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>框架

    動(dòng)態(tài)場(chǎng)景下的自監(jiān)督深度估計(jì)方案

    自監(jiān)督深度估計(jì)的訓(xùn)練可以在大量無(wú)標(biāo)簽視頻序列來(lái)進(jìn)行,訓(xùn)練集獲取很方便。但問(wèn)題是,實(shí)際采集的視頻序列往往會(huì)有很多動(dòng)態(tài)物體,而自監(jiān)督訓(xùn)練本身就是基于靜態(tài)環(huán)境假設(shè),動(dòng)態(tài)環(huán)境下會(huì)失效。
    發(fā)表于 11-28 09:21 ?1056次閱讀
    動(dòng)態(tài)場(chǎng)景下的自監(jiān)督<b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>方案

    深度估計(jì)開(kāi)源方案分享

    可以看一下深度估計(jì)效果,這個(gè)深度圖的分辨率是真的高,物體邊界分割的非常干凈!這里也推薦工坊推出的新課程《
    的頭像 發(fā)表于 12-17 10:01 ?1139次閱讀
    <b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>開(kāi)源方案分享

    【AIBOX 應(yīng)用案例】深度估計(jì)

    了關(guān)鍵作用。深度估計(jì)技術(shù)可以分為多深度估計(jì)
    的頭像 發(fā)表于 03-19 16:33 ?354次閱讀
    【AIBOX 應(yīng)用案例】<b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品