0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

第一種用于主動(dòng)雙目立體成像系統(tǒng)的深度學(xué)習(xí)方法

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-07-29 10:17 ? 次閱讀

本文是計(jì)算機(jī)視覺(jué)頂會(huì)ECCV 2018錄取論文中備受關(guān)注的一篇,來(lái)自谷歌&普林斯頓大學(xué)的研究人員提出了第一個(gè)主動(dòng)雙目立體成像系統(tǒng)的深度學(xué)習(xí)解決方案,在諸多具有挑戰(zhàn)性的場(chǎng)景中展示出最先進(jìn)的結(jié)果。

深度傳感器(Depth sensors)為許多難題提供了額外的3D信息,如非剛性重構(gòu)(non-rigid reconstruction)、動(dòng)作識(shí)別和參數(shù)跟蹤,從而給計(jì)算機(jī)視覺(jué)帶來(lái)了革新。雖然深度傳感器技術(shù)有許多類(lèi)型,但它們都有明顯的局限性。例如,飛行時(shí)間系統(tǒng)(Time of flight systems)容易遭受運(yùn)動(dòng)偽影和多路徑的干擾,結(jié)構(gòu)光(structured light )容易受到環(huán)境光照和多設(shè)備干擾。在沒(méi)有紋理的區(qū)域,需要昂貴的全局優(yōu)化技術(shù),特別是在傳統(tǒng)的非學(xué)習(xí)方法中, passive stereo很難實(shí)現(xiàn)。

主動(dòng)雙目立體視覺(jué)(Active stereo)提供了一種潛在的解決方案:使用一對(duì)紅外立體相機(jī),使用一個(gè)偽隨機(jī)模式,通過(guò)圖案化的紅外光源對(duì)場(chǎng)景進(jìn)行紋理化(如圖1所示)。通過(guò)合理選擇傳感波長(zhǎng),相機(jī)對(duì)捕獲主動(dòng)照明和被動(dòng)光線(xiàn)的組合,提高了結(jié)構(gòu)光的質(zhì)量,同時(shí)在室內(nèi)和室外場(chǎng)景中提供了強(qiáng)大的解決方案。雖然這項(xiàng)技術(shù)幾十年前就提出了,但直到最近才出現(xiàn)在商業(yè)產(chǎn)品中。因此,從主動(dòng)雙目立體圖像中推斷深度的先前工作相對(duì)較少,并且尚未獲得大規(guī)模的ground truth訓(xùn)練數(shù)據(jù)。

圖1:ActiveStereoNet (ASN)通過(guò)使用 Intel Realsense D D435相機(jī)獲得的一對(duì)經(jīng)過(guò)修正的紅外圖像,產(chǎn)生平滑、詳細(xì)、無(wú)量化的結(jié)果。

在主動(dòng)雙目立體成像系統(tǒng)中必須解決幾個(gè)問(wèn)題。有些問(wèn)題是所有的雙目系統(tǒng)問(wèn)題共有的,例如,必須避免匹配被遮擋的像素,這會(huì)導(dǎo)致過(guò)度平滑、邊緣變厚和/或輪廓邊緣附近出現(xiàn)飛行像素。但是,其他一些問(wèn)題是主動(dòng)雙目系統(tǒng)特有的,例如,它必須處理非常高分辨率的圖像來(lái)匹配投影儀產(chǎn)生的高頻模式;它必須避免由于這些高頻模式的其他排列而產(chǎn)生的許多局部最小值;而且它還必須補(bǔ)償附近和遠(yuǎn)處表面投影圖案之間的亮度差異。此外,它不能接受ground truth深度的大型主動(dòng)雙目數(shù)據(jù)集的監(jiān)督,因?yàn)闆](méi)有可用的數(shù)據(jù)。

在這篇論文中,我們介紹了ActiveStereoNet,這是主動(dòng)雙目立體成像系統(tǒng)(active stereo systems)的第一個(gè)深度學(xué)習(xí)解決方案。由于缺乏ground truth,我們的方法是完全自我監(jiān)督的,但它產(chǎn)生了精確的深度,子像素精度是像素的1/30;它沒(méi)有遭到常見(jiàn)的過(guò)度平滑問(wèn)題,保留了邊緣,并且明確地處理了遮擋。

我們引入了一種新的重構(gòu)誤差(reconstruction loss),它對(duì)噪聲和無(wú)紋理補(bǔ)?。╬atches)更具穩(wěn)健性,并且對(duì)光照的變化保持不變。我們提出的損失是通過(guò)基于窗口的成本聚合和自適應(yīng)的支持權(quán)重方案優(yōu)化的。這種成本聚合使邊緣保留并使損失函數(shù)平滑,這是使網(wǎng)絡(luò)達(dá)到引人注目的結(jié)果的關(guān)鍵。

最后,我們展示了預(yù)測(cè)無(wú)效區(qū)域(如遮擋)的任務(wù)是如何在沒(méi)有g(shù)round truth的情況下完成的,這對(duì)于減少模糊至關(guān)重要。我們對(duì)真實(shí)數(shù)據(jù)和合成數(shù)據(jù)進(jìn)行了大量的定量和定性的評(píng)估,證明了該技術(shù)在許多具有挑戰(zhàn)性的場(chǎng)景中得到了state-of-the-art的結(jié)果。

圖2:ActiveStereoNet的架構(gòu)

ActiveStereoNet的架構(gòu)如圖2所示。我們使用一個(gè)兩階段的網(wǎng)絡(luò),其中一個(gè)低分辨率的成本體積被構(gòu)建來(lái)推斷第一視差估計(jì)。一個(gè)雙線(xiàn)性上采樣后的殘差網(wǎng)絡(luò)用來(lái)預(yù)測(cè)最終視差圖。底部的Invalidation Network也被端到端地訓(xùn)練來(lái)預(yù)測(cè)置信度圖。

圖3:光度損失(左)、LCN損失(中)和建議的加權(quán)LCN loss(右)的比較。

我們提出的loss對(duì)于遮擋更強(qiáng)健,它不依賴(lài)于像素的亮度,也不受低紋理區(qū)域的影響。

實(shí)驗(yàn)和結(jié)果

我們進(jìn)行了一系列實(shí)驗(yàn)來(lái)評(píng)估ActiveStereoNet(ASN)。除了分析深度預(yù)測(cè)的準(zhǔn)確性,并將其與以前的成果相比之外,我們還提供消融研究的結(jié)果,以研究擬損失的每個(gè)組成部分會(huì)對(duì)結(jié)果造成什么影響。在補(bǔ)充材料中,我們還評(píng)估了我們提出的self-supervised loss 方法在passive (RGB) stereo中的適用性,該方案表現(xiàn)出更高的泛化能力,在許多基準(zhǔn)測(cè)試中達(dá)到了令人印象深刻的結(jié)果。

雙目立體匹配評(píng)估

在本節(jié)中,我們使用傳統(tǒng)的雙目立體匹配指標(biāo)(如抖動(dòng)和偏差),定性、定量地將我們的方法在實(shí)際數(shù)據(jù)的實(shí)驗(yàn)中與最先進(jìn)的立體算法進(jìn)行比較。

抖動(dòng)與偏差

假設(shè)某立體聲系統(tǒng)的基線(xiàn)標(biāo)準(zhǔn)為b,焦距為f,子像素視差精度為δ,則視差精度的深度誤差e與深度Z的平方成正比。由于視差誤差對(duì)深度的影響是可變的,一些簡(jiǎn)單的評(píng)估度量(如視差的平均誤差)不能有效地反映估計(jì)深度的質(zhì)量。而我們的方法首先標(biāo)出深度估計(jì)的誤差,然后計(jì)算視差中的相應(yīng)誤差。

為了評(píng)估ASN的子像素精度,我們記錄了相機(jī)在平坦的墻壁前記錄的100幀圖像,相機(jī)距離墻壁的范圍從500毫米到3500毫米不等,還有100幀,然后讓相機(jī)成50度角朝向墻壁,再記錄100幀,用來(lái)評(píng)估傾斜表面上的圖像。在本例中,我們將得到的結(jié)果與高魯棒性的平面擬合獲得的“ground truth”進(jìn)行對(duì)比評(píng)估。

圖5.對(duì)最新技術(shù)的定量評(píng)估。

我們的方法的數(shù)據(jù)偏差降低了一個(gè)數(shù)量級(jí),子像素精度為0.03像素,而且抖動(dòng)非常低(參見(jiàn)文本)。我們還展示了距離墻壁3000毫米時(shí),多種方案下預(yù)計(jì)出現(xiàn)的點(diǎn)云。請(qǐng)注意,盡管距離較遠(yuǎn)(3米),但其他方法相比,我們的結(jié)果噪音更低。

為了表示精度,我們將偏差計(jì)算為預(yù)測(cè)深度和真實(shí)值之間的平均誤差l1。圖5所示為關(guān)于我們所用的方法的深度偏差和傳感器輸出、現(xiàn)有最佳技術(shù)的局部立體化方法(PatchMatch,HashMatch),以及我們所使用的最先進(jìn)的非監(jiān)督式訓(xùn)練出的模型,并對(duì)點(diǎn)云做了表面法線(xiàn)著色處理的可視化操作。我們的系統(tǒng)在距墻壁全部距離上的性能都明顯優(yōu)于其他方法,并且其誤差不會(huì)隨著深度增加而顯著增加。我們系統(tǒng)對(duì)應(yīng)的子像素視差精度為1/30像素,這是通過(guò)使用上述方程(也在圖5中給出)擬合曲線(xiàn)而獲得的。這比其他方法的精度(不高于0.2像素)精確一個(gè)數(shù)量級(jí)。

為了表示噪聲,我們將抖動(dòng)(Jitter)計(jì)算為深度誤差的標(biāo)準(zhǔn)偏差。圖5表明,與其他方法相比,我們的方法在幾乎每個(gè)深度上都能實(shí)現(xiàn)最低的抖動(dòng)。

與現(xiàn)有最優(yōu)技術(shù)的比較

在具有挑戰(zhàn)性的場(chǎng)景中對(duì)ASN的更多定性評(píng)估如圖6所示??梢钥闯?,像PatchMatch和HashMatch這樣的局部方法無(wú)法處理有源光和無(wú)源光的混合照明場(chǎng)景,因此會(huì)產(chǎn)生不完整的差異圖像(缺失像素顯示為黑色)。使用半全局方案的傳感器輸出更適合此類(lèi)數(shù)據(jù),但仍然容易受到圖像噪聲的影響(請(qǐng)注意第四列中的噪聲結(jié)果)。相比之下,我們的方法可以產(chǎn)生完整的視差圖并保留清晰的邊界。

圖6.對(duì)現(xiàn)有最佳技術(shù)的定性評(píng)估。我們的方法可以生成詳細(xì)的視差圖。而目前最先進(jìn)的方法會(huì)受到無(wú)紋理區(qū)域的影響。傳感器半全局方案的噪聲更大,輸出過(guò)于平滑。

關(guān)于真實(shí)序列的更多例子如圖8(右)所示,其中我們給出了由表面法線(xiàn)著色的點(diǎn)云。我們的輸出保留了所有細(xì)節(jié),噪音很低。相比之下,我們使用自監(jiān)督方法進(jìn)行訓(xùn)練的網(wǎng)絡(luò)產(chǎn)生了過(guò)度平滑的輸出。

圖8:在合成數(shù)據(jù)和真實(shí)數(shù)據(jù)上的評(píng)估

我們的結(jié)果也不存在紋理復(fù)制問(wèn)題,這很可能是因?yàn)槲覀兪褂贸杀玖縼?lái)明確地對(duì)匹配函數(shù)進(jìn)行了建模,而不是直接從像素密度中學(xué)習(xí)。即使訓(xùn)練數(shù)據(jù)主要是從辦公室環(huán)境中捕獲的,我們?nèi)匀话l(fā)現(xiàn),ASN很好地涵蓋了各種測(cè)試場(chǎng)景,如起居室、游戲室,餐廳和各式各樣的目標(biāo),比如人、沙發(fā)、植物、桌子等。具體如圖所示。

討論、局限性和未來(lái)方向

我們?cè)诒疚闹薪榻B了ActiveStereoNet(ASN),這是第一種用于主動(dòng)雙目立體成像系統(tǒng)的深度學(xué)習(xí)方法。我們?cè)O(shè)計(jì)了一個(gè)新的損耗函數(shù)來(lái)處理高頻模式,照明效果和像素遮擋的情況,以解決自我監(jiān)督設(shè)置中的主動(dòng)立體聲問(wèn)題。我們的方法能夠進(jìn)行非常精確的重建,子像素精度達(dá)到0.03像素,比其他有源立體匹配方法精確一個(gè)數(shù)量級(jí)。與其他方法相比,ASN不會(huì)產(chǎn)生過(guò)于平滑的細(xì)節(jié),可以生成完整的深度圖,保留有清晰的邊緣,沒(méi)有亂飛的像素。而失效網(wǎng)絡(luò)作為一個(gè)副產(chǎn)物,能夠得出可用于需要遮擋處理的高級(jí)應(yīng)用的視差置信度圖。大量實(shí)驗(yàn)顯示,使用NVidia Titan X顯卡和最先進(jìn)的方法,用于不同具有挑戰(zhàn)性場(chǎng)景的處理任務(wù),每幀運(yùn)行平均時(shí)間為15ms。

局限性和未來(lái)方向

盡管我們的方法產(chǎn)生了令人信服的結(jié)果,但由于成本量的低分辨率,仍然存在透明對(duì)象和薄結(jié)構(gòu)的問(wèn)題。在未來(lái)的工作中,我們將提出解決方案來(lái)處理更高級(jí)任務(wù)的實(shí)施案例,比如語(yǔ)義分割。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:ECCV18:谷歌普林斯頓提出首個(gè)端到端立體雙目系統(tǒng)深度學(xué)習(xí)方案

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    雙目立體視覺(jué)原理大揭秘(

    實(shí)用化,不僅將成為工業(yè)檢測(cè)、生物醫(yī)學(xué)、虛擬現(xiàn)實(shí)等領(lǐng)域的關(guān)鍵技術(shù),還有可能應(yīng)用于航天遙測(cè)、軍事偵察等領(lǐng)域。目前在國(guó)外,雙目體視技術(shù)已廣泛應(yīng)用于生產(chǎn)、生 活中。雙目
    發(fā)表于 11-21 16:20

    雙目立體視覺(jué)原理大揭秘(二)

    要求較高。根據(jù)雙目立體視覺(jué)CCAS的原理,般分為以下步驟:第一、相機(jī)標(biāo)定。首先先對(duì)雙目系統(tǒng)中的
    發(fā)表于 11-21 16:22

    雙目立體視覺(jué)的運(yùn)用

    ` 本帖最后由 ketianjian 于 2016-3-3 09:38 編輯 雙目立體視覺(jué),這是門(mén)有著廣闊前景運(yùn)用的學(xué)科,也是一種非常重要的機(jī)器視覺(jué)運(yùn)用形式。通俗來(lái)講,就是利用
    發(fā)表于 03-03 09:36

    三極管各位大神,你們見(jiàn)過(guò)第一種畫(huà)法嗎?

    各位大神,你們見(jiàn)過(guò)第一種畫(huà)法嗎?感覺(jué)第一種畫(huà)法我不會(huì)分析啊
    發(fā)表于 05-19 21:29

    嵌入式系統(tǒng)學(xué)習(xí)方法

    很多新手都問(wèn)過(guò)嵌入式系統(tǒng)學(xué)習(xí)方法,好的學(xué)習(xí)方法可以事半功倍,學(xué)習(xí)嵌入式系統(tǒng),掌握了好的學(xué)習(xí)方法,自然可以水到渠成。本篇文章就來(lái)說(shuō)說(shuō)嵌入式
    發(fā)表于 12-17 06:42

    雙目立體視覺(jué)在嵌入式中有何應(yīng)用

    雙目立體視覺(jué)(BinocularStereoVision)是機(jī)器視覺(jué)的一種重要形式,因其可簡(jiǎn)單地利用左右攝像機(jī)中的圖像信息計(jì)算得到相機(jī)視野中物體相對(duì)于攝像機(jī)的深度信息使得該技術(shù)擁有廣泛
    發(fā)表于 12-23 07:19

    一種快速雙目立體匹配方法_梅金燕

    一種快速雙目立體匹配方法_梅金燕
    發(fā)表于 03-19 11:46 ?0次下載

    模型驅(qū)動(dòng)深度學(xué)習(xí)的標(biāo)準(zhǔn)流程與學(xué)習(xí)方法解析

    模型驅(qū)動(dòng)的深度學(xué)習(xí)方法近年來(lái),深度學(xué)習(xí)在人工智能領(lǐng)域系列困難問(wèn)題上取得了突破性成功應(yīng)用。
    的頭像 發(fā)表于 01-24 11:30 ?4929次閱讀
    模型驅(qū)動(dòng)<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的標(biāo)準(zhǔn)流程與<b class='flag-5'>學(xué)習(xí)方法</b>解析

    一種模糊森林學(xué)習(xí)方法

    針對(duì)隨機(jī)森林學(xué)習(xí)方法訓(xùn)練數(shù)據(jù)時(shí)存在的過(guò)擬合問(wèn)題,通過(guò)改進(jìn)各決策節(jié)點(diǎn)的決策函數(shù)設(shè)計(jì)一種模糊森林學(xué)習(xí)方法。利用高斯隸屬度函數(shù)構(gòu)建決策樹(shù)上各節(jié)點(diǎn)的決策函數(shù),將確定決策路徑轉(zhuǎn)換為模糊決策路徑。根據(jù)樣本從根
    發(fā)表于 02-23 11:09 ?1次下載

    一種基于塊對(duì)角化表示的多視角字典對(duì)學(xué)習(xí)方法

    字典學(xué)習(xí)作為一種高效的特征學(xué)習(xí)技術(shù)被廣泛應(yīng)用于多視角分類(lèi)中?,F(xiàn)有的多視角字典學(xué)習(xí)方法大多只利用多視角數(shù)據(jù)的部分信息,且只
    發(fā)表于 04-20 14:04 ?1次下載

    文詳細(xì)剖析深度相機(jī)之雙目成像

    文章導(dǎo)讀 本文通過(guò)介紹雙目立體視覺(jué)的成像過(guò)程,帶大家了解雙目視覺(jué)如何從兩個(gè)不同視角的成像平面中恢復(fù)出物體三維幾何信息,重建周?chē)拔锏娜S形狀
    的頭像 發(fā)表于 04-26 13:36 ?4170次閱讀
    <b class='flag-5'>一</b>文詳細(xì)剖析<b class='flag-5'>深度</b>相機(jī)之<b class='flag-5'>雙目成像</b>

    雙目立體視覺(jué)深度測(cè)量步驟介紹

    深度信息恢復(fù)是計(jì)算機(jī)視覺(jué)領(lǐng)域的個(gè)重要研究?jī)?nèi)容。使用傳統(tǒng)的光學(xué)成像系統(tǒng)對(duì)不同距離的物體成像時(shí),需要機(jī)械移動(dòng)會(huì)造成圖像放大率變化,導(dǎo)致
    的頭像 發(fā)表于 06-14 13:43 ?2931次閱讀

    使用深度學(xué)習(xí)方法對(duì)音樂(lè)流派進(jìn)行分類(lèi)

    電子發(fā)燒友網(wǎng)站提供《使用深度學(xué)習(xí)方法對(duì)音樂(lè)流派進(jìn)行分類(lèi).zip》資料免費(fèi)下載
    發(fā)表于 02-08 10:02 ?1次下載
    使用<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)方法</b>對(duì)音樂(lè)流派進(jìn)行分類(lèi)

    基于深度學(xué)習(xí)的散射成像研究進(jìn)展

    卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種用于對(duì)目標(biāo)進(jìn)行重建、分類(lèi)等處理的深度學(xué)習(xí)方法。自2016年深度學(xué)習(xí)
    發(fā)表于 05-24 09:51 ?345次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的散射<b class='flag-5'>成像</b>研究進(jìn)展

    一種端到端的立體深度感知系統(tǒng)的設(shè)計(jì)

    ? ? 本文提出了一種生產(chǎn)化的端到端立體深度感知系統(tǒng)設(shè)計(jì),可以完成預(yù)處理、在線(xiàn)立體校正和立體
    的頭像 發(fā)表于 05-26 16:12 ?756次閱讀
    <b class='flag-5'>一種</b>端到端的<b class='flag-5'>立體</b><b class='flag-5'>深度</b>感知<b class='flag-5'>系統(tǒng)</b>的設(shè)計(jì)