0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

持續(xù)在榜的RAFT-Stereo,你確定不來(lái)了解嗎?

3D視覺(jué)工坊 ? 來(lái)源:計(jì)算機(jī)視覺(jué)工坊 ? 2023-05-19 09:24 ? 次閱讀

論文題目:RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching

作者:Lahav Lipson ;Zachary Teed; Jia Deng等人

作者機(jī)構(gòu):Princeton University(普林斯頓大學(xué))

項(xiàng)目代碼:https://github.com/princeton-vl/RAFT-Stereo(論文中提到的開(kāi)源代碼,用的是Pytorch框架)

在公眾號(hào)「3D視覺(jué)工坊」后臺(tái)回復(fù)「原論文」,可獲取對(duì)應(yīng)論文pdf文件。

RAFT-Stereo是一種用于立體匹配的算法,它使用多層循環(huán)場(chǎng)變換(Multilevel Recurrent Field Transforms)來(lái)精確定位左右兩幅圖像中的對(duì)應(yīng)點(diǎn)。它包括一個(gè)RAFT網(wǎng)絡(luò)和一個(gè)立體匹配分支,能夠幫助解決深度估計(jì)中的一些挑戰(zhàn),如紋理缺失、遮擋和低紋理等問(wèn)題。RAFT-Stereo能夠有效地利用循環(huán)場(chǎng)變換來(lái)捕捉像素之間的長(zhǎng)程依賴性,從而提高立體匹配的準(zhǔn)確性。其次,它還使用了多個(gè)尺度和不同的分辨率,使算法對(duì)多尺度立體匹配具有良好的適應(yīng)性。此外,RAFT-Stereo算法還采用了門(mén)控循環(huán)單元(GRU)來(lái)進(jìn)一步提高處理速度??偟膩?lái)說(shuō),RAFT-Stereo是一種有潛力的立體匹配算法,能夠在多種深度估計(jì)應(yīng)用中發(fā)揮作用。RAFT-Stereo也是作為middleburry排行榜中前五名中,唯一一個(gè)2021年就提出的算法,持續(xù)至今依然名列前茅。

d7ea8174-f5d0-11ed-90ce-dac502259ad0.png

1 前言

立體深度估計(jì)是一個(gè)基本的視覺(jué)問(wèn)題,應(yīng)用范圍廣泛。早期的研究集中在特征匹配和正則化兩個(gè)關(guān)鍵部分。在處理中使用3D卷積神經(jīng)網(wǎng)絡(luò)計(jì)算代價(jià)體是主流方法,但代價(jià)較大,需要特殊方法才能操作高分辨率的圖像。而光流問(wèn)題則通常使用迭代精化的方法。光流和矯正立體鏡頭是緊密相關(guān)的問(wèn)題,但兩個(gè)任務(wù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)卻有很大差異。這里,作者提出了RAFT-Stereo,一種新的雙視立體結(jié)構(gòu)體系,利用了RAFT特有的3D體積和迭代細(xì)化法。RAFT-Stereo僅使用2D卷積和一個(gè)輕量級(jí)的成本體積,相比之前的立體網(wǎng)絡(luò),具有更好的泛化能力且不需要復(fù)雜的損失項(xiàng)。RAFT-Stereo在KITTI、ETH3D和Middlebury等真實(shí)數(shù)據(jù)集上表現(xiàn)非常出色,且具有更好的跨數(shù)據(jù)集泛化能力。

2 相關(guān)背景

計(jì)算機(jī)視覺(jué)領(lǐng)域,立體匹配一直是一個(gè)關(guān)鍵性的問(wèn)題,早期方法集中在設(shè)計(jì)更好的匹配成本和高效的推斷算法上,而深度學(xué)習(xí)被應(yīng)用于改進(jìn)立體匹配的成本函數(shù)。目前的方法更注重于端到端可訓(xùn)練的3D神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)包括用于從圖像塊計(jì)算成本的2D卷積網(wǎng)絡(luò),構(gòu)建3D成本體,以及3D卷積層用于處理該成本體。這些方法在一些數(shù)據(jù)集上表現(xiàn)出色,但3D卷積的計(jì)算成本很高,往往不能泛化到其被訓(xùn)練的領(lǐng)域之外。因此,盡管一些努力已經(jīng)集中在提高它們的泛化能力上,但許多工作仍然需要通過(guò)替換更輕量級(jí)的模塊來(lái)提高計(jì)算效率。RAFT-Stereo是一種內(nèi)存效率更高的算法,能夠在百萬(wàn)像素圖像上預(yù)測(cè)全分辨率的立體。

3 方法

給定一對(duì)矯正后的圖像(IL, IR),目標(biāo)是估計(jì)一個(gè)視差場(chǎng)d,使每個(gè)IL中的像素都有水平的位移。與RAFT類(lèi)似,RAFT-Stereo的方法由三個(gè)主要組件組成:特征提取器、相關(guān)金字塔和基于GRU的更新運(yùn)算符,如圖1所示。更新運(yùn)算符迭代地從相關(guān)金字塔中檢索特征并對(duì)視差場(chǎng)進(jìn)行更新。

d81e56fc-f5d0-11ed-90ce-dac502259ad0.png

3.1 Feature Extraction - 特征提取

作者介紹了一種基于特征編碼器和上下文編碼器的特征提取方法。特征編碼器應(yīng)用于左右圖像并生成密集的特征圖,用于構(gòu)造相關(guān)體積。上下文編碼器與特征編碼器結(jié)構(gòu)相同,但采用批量歸一化替代實(shí)例歸一化,僅在左圖像上應(yīng)用。在作者的方法中,上下文特征用于初始化更新運(yùn)算符的隱藏狀態(tài),并在每次迭代中注入GRU。

3.2 Correlation Pyramid - 相關(guān)金字塔

作者提出了相關(guān)金字塔,用于提高矯正立體視覺(jué)的精度和魯棒性。相關(guān)體積基于特征向量之間的點(diǎn)積,用于計(jì)算圖像之間的相似性;相關(guān)金字塔通過(guò)對(duì)最后一個(gè)維度進(jìn)行平均池化構(gòu)建,它具有增加的接受野,但僅通過(guò)對(duì)最后一個(gè)維度進(jìn)行池化,可以保留原始圖像中的高分辨率信息,從而允許恢復(fù)非常細(xì)微的結(jié)構(gòu);為了從相關(guān)金字塔中檢索像素,作者使用相關(guān)查找算法,它利用一個(gè)類(lèi)似于 RAFT 中定義的查找算子和線性插值來(lái)實(shí)現(xiàn)檢索。該方法具有高效性和魯棒性,并且易于實(shí)現(xiàn)。

d83e55d8-f5d0-11ed-90ce-dac502259ad0.png

3.3 Multi-Level Update Operator - 多級(jí)更新運(yùn)算符

作者從一個(gè)初始的起點(diǎn)d0 = 0開(kāi)始預(yù)測(cè)一系列視差場(chǎng){d1、…、dN}。在每次迭代中,作者使用目前的視差估計(jì)來(lái)索引相關(guān)體積,產(chǎn)生一組相關(guān)特征。這些特征經(jīng)過(guò)了2個(gè)卷積層。同樣地,目前的視差估計(jì)也經(jīng)過(guò)了2個(gè)卷積層。然后將相關(guān)特征、視差和上下文特征連接起來(lái)并注入到GRU中。GRU更新隱藏狀態(tài),新的隱藏狀態(tài)然后用于預(yù)測(cè)視差更新。

多個(gè)隱藏狀態(tài):原始的RAFT完全在固定的高分辨率上進(jìn)行更新。這種方法的一個(gè)問(wèn)題是,隨著GRU更新次數(shù)的增加,接受域的增加非常緩慢。這可能對(duì)紋理較大、局部信息較少的場(chǎng)景有影響。作者通過(guò)提出一個(gè)同時(shí)在1/8、1/16和1/32分辨率上操作特征映射的多分辨率更新運(yùn)算符來(lái)解決這個(gè)問(wèn)題。

上采樣:預(yù)測(cè)的視差場(chǎng)分辨率為輸入圖像的1/4或1/8。為了輸出全分辨率的視差圖,作者使用了和RAFT相同的凸上采樣方法。RAFT-Stereo將全分辨率的視差值視為其粗略分辨率鄰居3x3網(wǎng)格的凸組合。最高分辨率的GRU預(yù)測(cè)凸組合權(quán)重。

d85b8dba-f5d0-11ed-90ce-dac502259ad0.png

3.4 Slow-Fast GRU - Slow-Fast遞歸神經(jīng)網(wǎng)絡(luò)模型

在這個(gè)部分中,作者介紹了Slow-Fast GRU的方法,針對(duì)隱藏狀態(tài)的1/8分辨率進(jìn)行GRU更新所需的FLOPs大約是更新1/16分辨率隱藏狀態(tài)的4倍。為了加快推理速度,在RAFT-Stereo的一個(gè)版本中,每次更新1/8分辨率的隱藏狀態(tài)時(shí)都會(huì)多次更新1/16分辨率和1/32分辨率的隱藏狀態(tài)。這種修改將運(yùn)行時(shí)間降低了52%,但是不顯著降低性能,使得RAFT-Stereo能夠在實(shí)時(shí)運(yùn)行中得到高效的計(jì)算結(jié)果。

3.5 Supervision - 監(jiān)督

在整個(gè)預(yù)測(cè)序列中,作者監(jiān)督預(yù)測(cè)和地面真相差距之間的距離l1, {d1,…, dN},權(quán)值呈指數(shù)增長(zhǎng)。給定地真差dgt,損失定義為:

d8738df2-f5d0-11ed-90ce-dac502259ad0.png

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)集和評(píng)估指標(biāo)

作者在ETH3D、Middlebury 和KITTI-2015上評(píng)估了RAFT-Stereo的性能。遵循以前的工作,使用合成Sceneflow數(shù)據(jù)集對(duì)模型進(jìn)行預(yù)訓(xùn)練。在ETH3D和Middlebury的排行榜上,RAFT-Stereo取得了較為先進(jìn)的性能,并且RAFT-Stereo在ETH3D、KITTI和Middlebury的零樣本泛化設(shè)置中優(yōu)于其他的方法。

4.2 實(shí)施細(xì)節(jié)

RAFT-Stereo使用Pytorch實(shí)現(xiàn),并使用兩個(gè)RTX 6000 GPU進(jìn)行訓(xùn)練。所有模塊都從頭開(kāi)始隨機(jī)初始化。在訓(xùn)練期間,使用AdamW優(yōu)化器。在訓(xùn)練計(jì)劃中進(jìn)行32次視差場(chǎng)更新后評(píng)估RAFT-Stereo:最終模型使用批量大小為8的合成數(shù)據(jù)進(jìn)行200k步的訓(xùn)練,而去除實(shí)驗(yàn)使用批量大小為6進(jìn)行100k步的訓(xùn)練。在訓(xùn)練過(guò)程中運(yùn)行消融實(shí)驗(yàn),使用16個(gè)視差場(chǎng)更新,最終結(jié)果使用22個(gè)更新進(jìn)行訓(xùn)練。作者使用一個(gè)單周期學(xué)習(xí)率計(jì)劃,學(xué)習(xí)率最小值為。所有RAFT-Stereo實(shí)驗(yàn)都在隨機(jī)選擇的360x720裁剪上進(jìn)行訓(xùn)練(不包括基準(zhǔn)提交),所有實(shí)驗(yàn),除了消融實(shí)驗(yàn)外,都使用數(shù)據(jù)增強(qiáng)。具體來(lái)說(shuō):圖像飽和度在0(灰度)和1.4之間調(diào)整;右圖被擾動(dòng)以模擬常見(jiàn)于ETH3D和Middlebury等數(shù)據(jù)集中的不完美矯正;作者通過(guò)在范圍內(nèi)使用隨機(jī)因子來(lái)拉伸圖像和視差,以模擬一系列可能的視差分布。

d8916ffc-f5d0-11ed-90ce-dac502259ad0.png

d8ab7b18-f5d0-11ed-90ce-dac502259ad0.png

4.3 Ablations - 消融

RAFT-Stereo使用了多個(gè)隱藏狀態(tài)和單獨(dú)的backbone來(lái)提高性能。在運(yùn)行時(shí)間和內(nèi)存使用方面做了權(quán)衡,并通過(guò)簡(jiǎn)化成本體積和Slow-Fast技術(shù)進(jìn)一步加快了運(yùn)行時(shí)間。在視差估計(jì)上保持更高的分辨率可以提高性能,但會(huì)增加運(yùn)行時(shí)間和內(nèi)存使用。最優(yōu)分辨率視場(chǎng)大小的選擇需要在準(zhǔn)確性和計(jì)算代價(jià)之間進(jìn)行權(quán)衡。

4.4 Real-time Inferences - 實(shí)時(shí)推理

RAFT-Stereo在KITTI分辨率下可實(shí)現(xiàn)實(shí)時(shí)推理,可與DSMNet相媲美。Slow-Fast雙級(jí)GRU和單個(gè)backbone的使用是實(shí)現(xiàn)實(shí)時(shí)推理的關(guān)鍵。RAFT-Stereo實(shí)現(xiàn)的雙線性采樣器可以進(jìn)一步優(yōu)化成像質(zhì)量。

5 總結(jié)

RAFT-Stereo利用多級(jí)GRUs擴(kuò)展了RAFT,實(shí)現(xiàn)了雙視圖立體結(jié)構(gòu)。它在跨數(shù)據(jù)集上的表現(xiàn)達(dá)到了先進(jìn)水平,并且在Middlebury基準(zhǔn)測(cè)試中排名持續(xù)位列前五,在ETH3D上表現(xiàn)也非常優(yōu)秀。

RAFT-Stereo是一種基于RAFT的深度圖估計(jì)算法。是一種稠密光流算法,能夠在輸入圖像之間估計(jì)像素之間的運(yùn)動(dòng)。RAFT-Stereo的主要思想是將光流作為控制變量來(lái)解決輸入圖像的深度圖估計(jì)問(wèn)題。該算法在流形空間中優(yōu)化存儲(chǔ)著光流場(chǎng)和深度圖的全局能量函數(shù)。這種方法既可以考慮全局的能量函數(shù),又可以在局部?jī)?yōu)化,具有高準(zhǔn)確性和穩(wěn)定性。

相比傳統(tǒng)的基于視差的立體匹配算法,RAFT-Stereo在場(chǎng)景中具有更高的魯棒性和魯棒性。此外,RAFT-Stereo還支持在多GPU上進(jìn)行訓(xùn)練和推理,并且速度非?????傊?,RAFT-Stereo是一種強(qiáng)大的深度估計(jì)算法,具有高準(zhǔn)確性和魯棒性。它可以用于許多應(yīng)用程序,例如3D場(chǎng)景重建、自動(dòng)駕駛汽車(chē)、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等。

d91d73da-f5d0-11ed-90ce-dac502259ad0.png

d92e0448-f5d0-11ed-90ce-dac502259ad0.png

d9679fbe-f5d0-11ed-90ce-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4771

    瀏覽量

    100772
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1084

    瀏覽量

    40468
  • 提取器
    +關(guān)注

    關(guān)注

    0

    文章

    14

    瀏覽量

    8123

原文標(biāo)題:持續(xù)在榜的RAFT-Stereo,你確定不來(lái)了解嗎?

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    FHT4644國(guó)產(chǎn)替代必然性崛起不來(lái)了解一下芯片這些事嗎

    FHT4644國(guó)產(chǎn)替代必然性崛起不來(lái)了解一下芯片這些事嗎 國(guó)產(chǎn)芯片崛起,讓國(guó)內(nèi)發(fā)展環(huán)境變得更加穩(wěn)定,國(guó)產(chǎn)芯片F(xiàn)HT4644通過(guò)性能實(shí)驗(yàn)測(cè)試,更高效。實(shí)驗(yàn)室常溫條件下,實(shí)測(cè)數(shù)據(jù),輸出電流Iout
    發(fā)表于 06-24 17:38

    ESP32用send函數(shù)發(fā)送數(shù)據(jù)時(shí),經(jīng)常出現(xiàn)進(jìn)到send后就出不來(lái)了的情況,為什么?

    使用ESP32的WIFI發(fā)送TCP數(shù)據(jù)時(shí)(模塊做AP,TCP-Server),用send函數(shù)發(fā)送數(shù)據(jù)時(shí),經(jīng)常出現(xiàn)進(jìn)到send后就出不來(lái)了的情況,唯一的解救辦法就是斷開(kāi)WIFI連接,send才會(huì)返回
    發(fā)表于 06-26 07:00

    菜鳥(niǎo)求助:程序有時(shí)進(jìn)入延時(shí)后就出不來(lái)了,不知怎么回事

    菜鳥(niǎo)求助:程序有時(shí)進(jìn)入延時(shí)后就出不來(lái)了,不知怎么回事
    發(fā)表于 08-27 17:16

    DSP F2812 GPIOF12配置成通用I/O口,為什么輸出不來(lái)了高電平?

    DSP F2812 GPIOF12配置成通用I/O口,為什么輸出不來(lái)了高電平?難道說(shuō)引腳沒(méi)有內(nèi)部上拉,就輸出不了高電平嗎?還是什么原因?
    發(fā)表于 10-31 17:17

    來(lái)了,在哪?

    來(lái)了,在哪?
    發(fā)表于 10-25 15:23

    請(qǐng)問(wèn)AD1955處于DSD模式時(shí)只能是stereo嗎?

    AD1955處于DSD模式時(shí),只能是stereo嗎?就算之前設(shè)置的是MONO,只要設(shè)置為SACD Slave后Output Fomat自動(dòng)轉(zhuǎn)換Stereo了。
    發(fā)表于 09-29 15:48

    為什么任務(wù)跑起來(lái)直接進(jìn)入了while(1)出不來(lái)了

    我建立了2個(gè)相同優(yōu)先級(jí)的任務(wù),一個(gè)任務(wù)里是while(1);死循環(huán),另一個(gè)是閃爍燈, 為什么任務(wù)跑起來(lái)直接進(jìn)入了while(1)出不來(lái)了?不是有時(shí)間片輪詢嗎?
    發(fā)表于 07-24 04:35

    uCOSIII移植運(yùn)行到OSStart();這個(gè)函數(shù)里面就出不來(lái)了是怎么回事?

    我把uCOSIII移植到STM32F103C8T6的時(shí)候,程序運(yùn)行到OSStart();這個(gè)函數(shù)里面就出不來(lái)了,我移植是跟著原子哥的視頻來(lái)的,以前的移植到STM32F103ZET6的時(shí)候都沒(méi)有問(wèn)題,但是這次不知道怎么回事,求幫忙,折騰了一下午了,實(shí)在沒(méi)辦法了
    發(fā)表于 09-03 04:35

    AD1955處于DSD模式時(shí)只能是stereo嗎?

    AD1955處于DSD模式時(shí),只能是stereo嗎?就算之前設(shè)置的是MONO,只要設(shè)置為SACD Slave后Output Fomat自動(dòng)轉(zhuǎn)換Stereo了。
    發(fā)表于 11-29 08:24

    high performance stereo routin

    high performance stereo routing switcher
    發(fā)表于 04-18 20:37 ?48次下載
    high performance <b class='flag-5'>stereo</b> routin

    MLCC最新缺貨型號(hào)排行,電子行業(yè)的各位趕緊來(lái)了解吧!

    MLCC最新缺貨型號(hào)排行,電子行業(yè)的各位趕緊來(lái)了解吧,
    的頭像 發(fā)表于 09-09 09:35 ?4374次閱讀

    用案例來(lái)了解貼片功率電感的作用

    的朋友或許就會(huì)說(shuō)我使用的電感,難道還沒(méi)有了解的清楚?電感方面的問(wèn)題或許真沒(méi)有我了解的清楚。今天我們結(jié)合相關(guān)案例
    的頭像 發(fā)表于 01-07 14:10 ?869次閱讀
    用案例<b class='flag-5'>來(lái)了解</b>貼片功率電感的作用

    使用 RAPIDS RAFT 進(jìn)行機(jī)器學(xué)習(xí)和數(shù)據(jù)分析的可重用計(jì)算模式

    使用 RAPIDS RAFT 進(jìn)行機(jī)器學(xué)習(xí)和數(shù)據(jù)分析的可重用計(jì)算模式
    的頭像 發(fā)表于 07-05 16:30 ?585次閱讀
    使用 RAPIDS <b class='flag-5'>RAFT</b> 進(jìn)行機(jī)器學(xué)習(xí)和數(shù)據(jù)分析的可重用計(jì)算模式

    多種角度來(lái)了解OBD2

    多種角度來(lái)了解OBD2
    的頭像 發(fā)表于 09-04 09:55 ?2903次閱讀
    多種角度<b class='flag-5'>來(lái)了解</b>OBD2

    無(wú)需電流采樣電阻的智能電機(jī)驅(qū)動(dòng)IC,不來(lái)了解一下么?

    無(wú)需電流采樣電阻的智能電機(jī)驅(qū)動(dòng)IC,不來(lái)了解一下么?
    的頭像 發(fā)表于 11-30 17:43 ?456次閱讀
    無(wú)需電流采樣電阻的智能電機(jī)驅(qū)動(dòng)IC,<b class='flag-5'>不來(lái)了解</b>一下么?