0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用NeRF訓(xùn)練深度立體網(wǎng)絡(luò)的創(chuàng)新流程

3D視覺(jué)工坊 ? 來(lái)源:3D視覺(jué)工坊 ? 2023-05-29 10:49 ? 次閱讀

本文提出了一種新的深度立體網(wǎng)絡(luò)訓(xùn)練框架,可以從使用單個(gè)手持相機(jī)拍攝的圖像序列中生成立體訓(xùn)練數(shù)據(jù)。這種方法利用了神經(jīng)渲染解決方案提供的立體圖像,跳過(guò)了基于ground-truth的訓(xùn)練,使用三元組來(lái)補(bǔ)償遮擋和深度圖像作為代理標(biāo)簽進(jìn)行NeRF監(jiān)督訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,訓(xùn)練模型的效果比現(xiàn)有的自我監(jiān)督方法提高了30-40%,在Middlebury數(shù)據(jù)集中達(dá)到了受監(jiān)督模型的效果,而且大多數(shù)情況下在零拍攝泛化方面表現(xiàn)出色。

1 前言

本文介紹了神經(jīng)渲染用于構(gòu)建靈活可擴(kuò)展訓(xùn)練數(shù)據(jù)的新范式,該方法可以輕松地訓(xùn)練深度立體網(wǎng)絡(luò)且無(wú)需任何基礎(chǔ)知識(shí)。該方法使用標(biāo)準(zhǔn)單手持相機(jī)在野外收集稀疏的圖像序列,并在其上訓(xùn)練NeRF模型。通過(guò)NeRF模型,可以從任意視點(diǎn)合成立體對(duì)以自我監(jiān)督的方式訓(xùn)練任何立體網(wǎng)絡(luò),其中通過(guò)渲染每個(gè)對(duì)的第三個(gè)視圖來(lái)有效地解決遮擋問(wèn)題。此外,NeRF渲染的深度作為代理監(jiān)督完善了我們的NeRF監(jiān)督訓(xùn)練方法。實(shí)驗(yàn)結(jié)果表明,相對(duì)于現(xiàn)有的自我監(jiān)督方法和合成數(shù)據(jù)集方法,所提出的方法在零拍攝泛化方面表現(xiàn)更出色。

本文的主要貢獻(xiàn)可以總結(jié)為以下幾點(diǎn):

創(chuàng)新的方法來(lái)使用神經(jīng)渲染和一系列用戶收集的圖像序列來(lái)收集和生成立體訓(xùn)練數(shù)據(jù)。

一個(gè) NeRF-Supervised 訓(xùn)練協(xié)議,結(jié)合渲染圖像三元組和深度圖來(lái)解決遮擋和增強(qiáng)細(xì)節(jié)。

在具有挑戰(zhàn)性的立體數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的零樣本泛化結(jié)果,且沒(méi)有利用任何真實(shí)立體對(duì)或基準(zhǔn)。

29376a56-fcfc-11ed-90ce-dac502259ad0.png

2 相關(guān)背景

本文這部分介紹了立體匹配、無(wú)監(jiān)督立體、零樣本泛化和神經(jīng)輻射場(chǎng)等方面的相關(guān)工作。在立體匹配中,介紹了近幾年深度學(xué)習(xí)成為該領(lǐng)域主導(dǎo)技術(shù)的情況。然而,這些方法嚴(yán)格要求密集的真實(shí)地面實(shí)況。在無(wú)監(jiān)督立體中,使用光度損失的策略是常見(jiàn)的,但根據(jù)作者的說(shuō)法,這些策略只適用于單個(gè)領(lǐng)域的專業(yè)化或適應(yīng)。在零樣本泛化中,將視差估算視為制作立體算法的問(wèn)題進(jìn)行改進(jìn)是一條研究思路。在神經(jīng)輻射場(chǎng)中,NeRF是主要的方法,其模型可以解決多種問(wèn)題。作者提出的方法是通過(guò)從單個(gè)圖像生成立體對(duì)來(lái)學(xué)習(xí),不需要在數(shù)百萬(wàn)圖像上預(yù)先訓(xùn)練任何模型或有實(shí)況標(biāo)簽,但仍然能取得更好的結(jié)果。

3 方法

本文提出了NeRF-Supervised(NS)學(xué)習(xí)框架,用于訓(xùn)練立體匹配網(wǎng)絡(luò)。該框架的步驟主要包括:從多個(gè)靜態(tài)場(chǎng)景中收集多視角圖像,適配NeRF以渲染立體三元組和深度信息,最后使用渲染的數(shù)據(jù)訓(xùn)練立體匹配網(wǎng)絡(luò)。

29558db0-fcfc-11ed-90ce-dac502259ad0.png

3.1 Background: Neural Radiance Field (NeRF) - NeRF背景

神經(jīng)放射場(chǎng)(NeRF)是一種將場(chǎng)景中點(diǎn)的 3D 坐標(biāo)和捕捉該點(diǎn)的相機(jī)的視角作為輸入,映射到顏色-密度輸出的模型。為了渲染 2D 圖像,該模型通過(guò)將相機(jī)光線分成預(yù)定義的采樣點(diǎn),并使用 MLP 估計(jì)每個(gè)采樣點(diǎn)的密度和顏色,最終使用體渲染合成 2D 圖像。顯式表示例如體素網(wǎng)格可以存儲(chǔ)其他特征,以加速模型訓(xùn)練和計(jì)算。

3.2 NeRF as a Data Factory - NeRF作為數(shù)據(jù)工廠

這部分作者介紹了如何使用NeRF作為數(shù)據(jù)工廠生成立體圖像對(duì)以訓(xùn)練深度立體網(wǎng)絡(luò)。首先,作者通過(guò)COLMAP對(duì)圖像進(jìn)行預(yù)處理,然后為每個(gè)場(chǎng)景擬合獨(dú)立的NeRF,并使用渲染損失進(jìn)行優(yōu)化。最后,通過(guò)虛擬立體相機(jī)參數(shù)渲染兩個(gè)新視圖和一個(gè)第二個(gè)目標(biāo)幀,創(chuàng)建完美校正的立體三元組。在這個(gè)過(guò)程中,我作者從渲染深度中提取位移,并用它來(lái)輔助訓(xùn)練深度立體網(wǎng)絡(luò)。

3.3 NeRF-Supervised Training Regime - NeRF監(jiān)督訓(xùn)練機(jī)制

作者提出了一個(gè)NeRF-Supervised訓(xùn)練方案,其中利用一個(gè)圖像三元組通過(guò)光度損失和渲染位移損失對(duì)深度立體模型進(jìn)行監(jiān)督。三元組光度損失通過(guò)使用圖像重建來(lái)對(duì)遮擋問(wèn)題進(jìn)行補(bǔ)償。渲染位移損失被過(guò)濾以去除不可靠的像素。最終,兩個(gè)損失被加權(quán)平衡后,用于訓(xùn)練任何深度立體網(wǎng)絡(luò)。

29b3ab0c-fcfc-11ed-90ce-dac502259ad0.png

4 實(shí)驗(yàn)

4.1 實(shí)施細(xì)節(jié)

作者使用移動(dòng)設(shè)備捕獲的高分辨率場(chǎng)景進(jìn)行深度估計(jì)的方法。通過(guò)收集270個(gè)靜態(tài)場(chǎng)景和渲染三元組來(lái)生成訓(xùn)練數(shù)據(jù),并使用Instant-NGP作為NeRF engine實(shí)現(xiàn),以實(shí)現(xiàn)精確深度估計(jì)。此外,還引入了一個(gè)提議來(lái)提高現(xiàn)有立體算法的性能,并利用普通的相機(jī)進(jìn)行實(shí)現(xiàn)。其中,作者采用了準(zhǔn)確性和快速收斂的RAFT-Stereo作為主要架構(gòu),并使用PSMNet和CFNet進(jìn)行評(píng)估,提高了這些算法的性能。

4.2 評(píng)估數(shù)據(jù)集與協(xié)議

作者使用KITTI、Middlebury和ETH3D數(shù)據(jù)集進(jìn)行評(píng)估,計(jì)算視差誤差指標(biāo),并按照立體匹配領(lǐng)域的協(xié)議定義驗(yàn)證和測(cè)試集。評(píng)估采用固定的閾值τ,分別為KITTI固定τ = 3,Middlebury固定τ = 2,ETH3D固定τ = 1。在評(píng)估期間,考慮遮擋和非遮擋區(qū)域并具有有效的基準(zhǔn)視差。

歡迎關(guān)注微信公眾號(hào)「3D視覺(jué)工坊」,加群/文章投稿/課程主講,請(qǐng)加微信:QYong2014,添加時(shí)請(qǐng)備注:加群/投稿/主講申請(qǐng)

4.3 消融研究

作者使用渲染視頻生成大規(guī)模立體訓(xùn)練數(shù)據(jù)集的方法,涉及渲染參數(shù)選擇,標(biāo)簽生成和代理?yè)p失的選擇方法等。在進(jìn)行降板研究時(shí),作者發(fā)現(xiàn)在他們的數(shù)據(jù)集上使用L3ρ損失是最佳的,這利用了他們的渲染三重組合產(chǎn)生的三角形幾何形狀的自監(jiān)督。本文還介紹了使用虛擬基線對(duì)視差分布的影響,評(píng)估了渲染圖像的分辨率以及收集的場(chǎng)景數(shù)量在訓(xùn)練過(guò)程中的影響。作者發(fā)現(xiàn),更多的圖像及更小的虛擬基線可以提高模型的性能。在最具挑戰(zhàn)性的數(shù)據(jù)集上使用更多場(chǎng)景可以顯著提高模型的準(zhǔn)確性。

29f71b08-fcfc-11ed-90ce-dac502259ad0.png2a16b1e8-fcfc-11ed-90ce-dac502259ad0.png2a396f58-fcfc-11ed-90ce-dac502259ad0.png

4.4 與MFS對(duì)比

作者比較了本文的方法和最新的從單一圖像生成立體圖對(duì)方法MfS,并通過(guò)訓(xùn)練三種立體網(wǎng)絡(luò)得出。研究表明,在使用MfS生成方法和使用MfS數(shù)據(jù)集上訓(xùn)練時(shí),MfS表現(xiàn)較好(A,D和G)。然而,本文的方法在不需要使用大量訓(xùn)練數(shù)據(jù)的情況下,通過(guò)NS范式提供的監(jiān)督訓(xùn)練的立體網(wǎng)絡(luò)在大多數(shù)情況下表現(xiàn)更好,證明了我們的NS范式實(shí)現(xiàn)了更好的性能和更高的預(yù)測(cè)質(zhì)量。

2a491264-fcfc-11ed-90ce-dac502259ad0.png

4.5 零樣本泛化基準(zhǔn)測(cè)試

作者針對(duì)立體視覺(jué)領(lǐng)域的零樣本泛化問(wèn)題,在NS-PSMNet模型的基礎(chǔ)上進(jìn)行了實(shí)驗(yàn)評(píng)估并與其它先進(jìn)方法進(jìn)行了比較。針對(duì)不同論文中關(guān)于Middlebury數(shù)據(jù)集評(píng)估協(xié)議的不一致性問(wèn)題,本文重新評(píng)估了相關(guān)方法并建立了一個(gè)公共評(píng)估協(xié)議。通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果,本文發(fā)現(xiàn)組合使用泛化能力較強(qiáng)的RAFT-Stereo和NS的方法可以在Middlebury數(shù)據(jù)集上獲得最佳結(jié)果。同時(shí),在使用全部數(shù)據(jù)集作為評(píng)估標(biāo)準(zhǔn)時(shí),NS-PSMNet模型的表現(xiàn)優(yōu)于除了PSMNet的其他先進(jìn)方法。

2a7a0f68-fcfc-11ed-90ce-dac502259ad0.png

5 總結(jié)

NeRF-Supervised Deep Stereo提出了一種新的學(xué)習(xí)框架,可以輕松地訓(xùn)練立體匹配網(wǎng)絡(luò),而不需要任何ground-truth數(shù)據(jù),該論文還提出了一種NeRF-Supervised訓(xùn)練協(xié)議,該協(xié)議結(jié)合了渲染圖像三元組和深度圖,以解決遮擋問(wèn)題并增強(qiáng)細(xì)節(jié),實(shí)驗(yàn)結(jié)果表明,該模型在挑戰(zhàn)性的立體數(shù)據(jù)集上取得了最先進(jìn)的零樣本泛化結(jié)果。

本文提出了一種利用NeRF訓(xùn)練深度立體網(wǎng)絡(luò)的創(chuàng)新流程,通過(guò)單個(gè)低成本手持相機(jī)捕捉圖像進(jìn)行訓(xùn)練,產(chǎn)生了最先進(jìn)的零樣本泛化,超越了自我監(jiān)督和監(jiān)督方法。雖然局限于小規(guī)模、靜態(tài)的場(chǎng)景,而且仍無(wú)法處理具有挑戰(zhàn)性的條件,但是作者的工作是數(shù)據(jù)民主化的顯著進(jìn)步,將成功的關(guān)鍵置于用戶手中。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7035

    瀏覽量

    89045
  • 網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    14

    文章

    7568

    瀏覽量

    88796

原文標(biāo)題:CVPR2023 I NeRF-Supervised Deep Stereo:不需要任何ground-truth數(shù)據(jù)

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)心電圖降噪

    具體的軟硬件實(shí)現(xiàn)點(diǎn)擊 http://mcu-ai.com/ MCU-AI技術(shù)網(wǎng)頁(yè)_MCU-AI 我們提出了一種利用由長(zhǎng)短期記憶 (LSTM) 單元構(gòu)建的深度循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)降 噪心電圖信號(hào) (ECG
    發(fā)表于 05-15 14:42

    關(guān)于創(chuàng)新訓(xùn)練計(jì)劃項(xiàng)目

    學(xué)校有個(gè)大學(xué)生創(chuàng)新訓(xùn)練計(jì)劃項(xiàng)目的申報(bào),不知道做什么,想做個(gè)電子類的,只會(huì)一點(diǎn)單片機(jī)基礎(chǔ),c語(yǔ)言麻煩各位給點(diǎn)建議。。。
    發(fā)表于 04-25 23:14

    人工智能AI-卷積神經(jīng)網(wǎng)絡(luò)LabVIEW之Yolov3+tensorflow深度學(xué)習(xí)有用嗎?

    python編程語(yǔ)言的前提下,使用labview訓(xùn)練和部署深度學(xué)習(xí)模型,并配備相關(guān)案例視頻以及源碼。適用人群:1、適用于工業(yè)自動(dòng)化行業(yè)從業(yè)者利用labview或者C#進(jìn)行深度學(xué)習(xí)應(yīng)用;
    發(fā)表于 11-27 11:19

    基于虛擬化的多GPU深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練框架

    針對(duì)深度神經(jīng)網(wǎng)絡(luò)在分布式多機(jī)多GPU上的加速訓(xùn)練問(wèn)題,提出一種基于虛擬化的遠(yuǎn)程多GPU調(diào)用的實(shí)現(xiàn)方法。利用遠(yuǎn)程GPU調(diào)用部署的分布式GPU集群改進(jìn)傳統(tǒng)一對(duì)一的虛擬化技術(shù),同時(shí)改變
    發(fā)表于 03-29 16:45 ?0次下載
    基于虛擬化的多GPU<b class='flag-5'>深度</b>神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>訓(xùn)練</b>框架

    深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練技巧的詳細(xì)資料匯總

    本文檔的主要內(nèi)容詳細(xì)介紹的是深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練技巧匯總,總結(jié)訓(xùn)練網(wǎng)絡(luò)的各種經(jīng)驗(yàn)和技巧
    發(fā)表于 03-07 08:00 ?10次下載
    <b class='flag-5'>深度</b>學(xué)習(xí)<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>訓(xùn)練</b>技巧的詳細(xì)資料匯總

    基于預(yù)訓(xùn)練模型和長(zhǎng)短期記憶網(wǎng)絡(luò)深度學(xué)習(xí)模型

    語(yǔ)義槽填充是對(duì)話系統(tǒng)中一項(xiàng)非常重要的任務(wù),旨在為輸入句子的毎個(gè)單詞標(biāo)注正確的標(biāo)簽,其性能的妤壞極大地影響著后續(xù)的對(duì)話管理模塊。目前,使用深度學(xué)習(xí)方法解決該任務(wù)時(shí),一般利用隨機(jī)詞向量或者預(yù)訓(xùn)練詞向量
    發(fā)表于 04-20 14:29 ?19次下載
    基于預(yù)<b class='flag-5'>訓(xùn)練</b>模型和長(zhǎng)短期記憶<b class='flag-5'>網(wǎng)絡(luò)</b>的<b class='flag-5'>深度</b>學(xué)習(xí)模型

    NVIDIA GPU加快深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推斷

    深度學(xué)習(xí)是推動(dòng)當(dāng)前人工智能大趨勢(shì)的關(guān)鍵技術(shù)。在 MATLAB 中可以實(shí)現(xiàn)深度學(xué)習(xí)的數(shù)據(jù)準(zhǔn)備、網(wǎng)絡(luò)設(shè)計(jì)、訓(xùn)練和部署全流程開(kāi)發(fā)和應(yīng)用。聯(lián)合高性能
    的頭像 發(fā)表于 02-18 13:31 ?2052次閱讀

    NeRF的基本概念及工作原理

    神經(jīng)輻射場(chǎng) (NeRF) 是一個(gè)完全連接的神經(jīng)網(wǎng)絡(luò),可以基于部分 2D 圖像集生成復(fù)雜 3D 場(chǎng)景的新視圖。它被訓(xùn)練使用渲染損失來(lái)重現(xiàn)場(chǎng)景的輸入視圖。它的工作原理是獲取代表場(chǎng)景的輸入圖像并在它們之間進(jìn)行插值以渲染一個(gè)完整的場(chǎng)景。
    的頭像 發(fā)表于 08-29 11:01 ?2.3w次閱讀

    Block nerf:可縮放的大型場(chǎng)景神經(jīng)視圖合成

    為了在大場(chǎng)景中應(yīng)用神經(jīng)輻射場(chǎng)(NeRF)模型,文章提出將大型場(chǎng)景分解為相互重疊的子場(chǎng)景 (block),每一個(gè)子場(chǎng)景分別訓(xùn)練,在推理時(shí)動(dòng)態(tài)結(jié)合相鄰 Block-NeRF 的渲染視圖。
    的頭像 發(fā)表于 10-19 15:15 ?1541次閱讀

    了解NeRF 神經(jīng)輻射場(chǎng)

    介紹 NeRF( Neural Radiance Fields )是一種先進(jìn)的計(jì)算機(jī)圖形學(xué)技術(shù),能夠生成高度逼真的3D場(chǎng)景。它通過(guò)深度學(xué)習(xí)的方法從2D圖片中學(xué)習(xí),并生成連續(xù)的3D場(chǎng)景模型。NeRF
    的頭像 發(fā)表于 06-12 09:52 ?5600次閱讀
    了解<b class='flag-5'>NeRF</b> 神經(jīng)輻射場(chǎng)

    基于NeRF的隱式GAN架構(gòu)

    一小部分2D圖像合成復(fù)雜3D場(chǎng)景的新視圖方面提供了最先進(jìn)的質(zhì)量。 作者提出了一個(gè)生成模型HyperNeRFGAN,它使用超網(wǎng)絡(luò)范式來(lái)生成由NeRF表示的三維物體。超網(wǎng)絡(luò)被定義為為解決特定任務(wù)的單獨(dú)目標(biāo)
    的頭像 發(fā)表于 06-14 10:16 ?1062次閱讀
    基于<b class='flag-5'>NeRF</b>的隱式GAN架構(gòu)

    深度學(xué)習(xí)框架區(qū)分訓(xùn)練還是推理嗎

    深度學(xué)習(xí)框架區(qū)分訓(xùn)練還是推理嗎 深度學(xué)習(xí)框架是一個(gè)非常重要的技術(shù),它們能夠加速深度學(xué)習(xí)的開(kāi)發(fā)與部署過(guò)程。在深度學(xué)習(xí)中,我們通常需要進(jìn)行兩個(gè)關(guān)
    的頭像 發(fā)表于 08-17 16:03 ?1389次閱讀

    利用PyTorch實(shí)現(xiàn)NeRF代碼詳解

    神經(jīng)輻射場(chǎng)(NeRF)是一種利用神經(jīng)網(wǎng)絡(luò)來(lái)表示和渲染復(fù)雜的三維場(chǎng)景的方法。它可以從一組二維圖片中學(xué)習(xí)出一個(gè)連續(xù)的三維函數(shù),這個(gè)函數(shù)可以給出空間中任意位置和方向上的顏色和密度。通過(guò)體積渲染的技術(shù),
    的頭像 發(fā)表于 10-21 09:46 ?745次閱讀

    人臉識(shí)別模型訓(xùn)練流程

    人臉識(shí)別模型訓(xùn)練流程是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一項(xiàng)重要技術(shù)。本文將詳細(xì)介紹人臉識(shí)別模型的訓(xùn)練流程,包括數(shù)據(jù)準(zhǔn)備、模型選擇、模型訓(xùn)練、模型評(píng)估和應(yīng)用
    的頭像 發(fā)表于 07-04 09:19 ?971次閱讀

    如何利用Matlab進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練

    ,使得神經(jīng)網(wǎng)絡(luò)的創(chuàng)建、訓(xùn)練和仿真變得更加便捷。本文將詳細(xì)介紹如何利用Matlab進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,包括網(wǎng)
    的頭像 發(fā)表于 07-08 18:26 ?1888次閱讀