0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

單目深度估計(jì)開源方案分享

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-12-17 10:01 ? 次閱讀

0. 筆者個人體會

單目深度估計(jì)網(wǎng)絡(luò)可以估計(jì)RGB圖像的稠密深度圖,但大家可以發(fā)現(xiàn)大多數(shù)模型的深度圖并不準(zhǔn)確,尤其是物體邊界的深度值非常模糊。而且很多深度估計(jì)模型只能處理分辨率很小的圖像,圖像一大就模糊。這就會導(dǎo)致SLAM/SfM等任務(wù)生成的3D場景的物體邊界質(zhì)量非常差。

今天筆者將為大家分享一項(xiàng)最新的開源工作PatchFusion,可以產(chǎn)生極高分辨率的單目深度圖,還可以助力之前的SOTA方案ZoeDepth等網(wǎng)絡(luò)漲點(diǎn)!

1. 效果展示

可以看一下單目深度估計(jì)效果,這個深度圖的分辨率是真的高,物體邊界分割的非常干凈!

24a44b0a-9c2d-11ee-8b88-92fbcf53809c.jpg

24b509ae-9c2d-11ee-8b88-92fbcf53809c.jpg

2. 具體原理是什么?

PatchFusion是基于圖塊的框架,具有三個關(guān)鍵組件:

(1)patch式融合網(wǎng)絡(luò),通過高層將全局一致的粗略預(yù)測與更精細(xì)、不一致的圖塊預(yù)測融合到一起;

(2) 全局到局部 (G2L) 模塊,為融合網(wǎng)絡(luò)添加重要上下文,無需patch選擇啟發(fā)式方法;

(3) 一致性感知訓(xùn)練 (CAT) 和推理 (CAI) 方法,強(qiáng)調(diào)patch重疊一致性,從而消除后處理。

24b8ef1a-9c2d-11ee-8b88-92fbcf53809c.jpg

3. 和其他SOTA方法對比如何?

分別在UnrealStereo4K、MVS-Synth 和 Middleburry 2014 上做了實(shí)驗(yàn),證明PatchFusion可以生成具有復(fù)雜細(xì)節(jié)的高分辨率深度圖。

更重要的一點(diǎn)是,PatchFusion可以增強(qiáng)之前的SOTA方案 ZoeDepth,在 UnrealStereo4K 和 MVS-Synth 上的均方根誤差 (RMSE)分別提高了 17.3% 和 29.4%。

24c91eb2-9c2d-11ee-8b88-92fbcf53809c.jpg

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 分辨率
    +關(guān)注

    關(guān)注

    2

    文章

    1063

    瀏覽量

    41931
  • RGB
    RGB
    +關(guān)注

    關(guān)注

    4

    文章

    798

    瀏覽量

    58510
  • SLAM
    +關(guān)注

    關(guān)注

    23

    文章

    424

    瀏覽量

    31833

原文標(biāo)題:這絕對是質(zhì)量最高的單目深度估計(jì)開源方案!

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    攝像頭和FPGA的ADAS產(chǎn)品原型系統(tǒng)

    地平線在軟件算法上提供了基于深度學(xué)習(xí)的整體方案,具有高性能、低運(yùn)算量的特點(diǎn)。在今年智車優(yōu)行“奇點(diǎn)汽車”發(fā)布會上,地平線首次向外界展示了真車環(huán)境下,利用攝像頭同時實(shí)現(xiàn)行人/車輛/車道
    發(fā)表于 01-06 18:09

    Firefly RK3399Pro開源主板 + 攝像頭,人體特征點(diǎn)檢測方案

    ,可以更智能地應(yīng)用于計(jì)算機(jī)視覺的相關(guān)領(lǐng)域中。方案搭建Firefly RK3399Pro開源主板 + 攝像頭方案特點(diǎn)高性能AI處理器采用R
    發(fā)表于 04-01 15:55

    基于深度估計(jì)的紅外圖像彩色化方法_戈曼

    基于深度估計(jì)的紅外圖像彩色化方法_戈曼
    發(fā)表于 03-17 10:13 ?0次下載

    基于圖像的深度估計(jì)算法,大幅度提升基于圖像深度估計(jì)的精度

    雙目匹配需要把左圖像素和右圖中其對應(yīng)像素進(jìn)行匹配,再由匹配的像素差算出左圖像素對應(yīng)的深度,而之前的深度估計(jì)方法均不能顯式引入類似的幾何約
    的頭像 發(fā)表于 06-04 15:46 ?3.5w次閱讀
    基于<b class='flag-5'>單</b><b class='flag-5'>目</b>圖像的<b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>算法,大幅度提升基于<b class='flag-5'>單</b><b class='flag-5'>目</b>圖像<b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>的精度

    UC Berkeley大學(xué)的研究人員們利用深度姿態(tài)估計(jì)深度學(xué)習(xí)技術(shù)

    器,從圖像中預(yù)測動作。雖然在訓(xùn)練該估計(jì)器的時候需要標(biāo)注動作,不過一旦訓(xùn)練完成,估計(jì)器在應(yīng)用到新圖片上時就無需再次訓(xùn)練了。
    的頭像 發(fā)表于 10-12 09:06 ?2813次閱讀

    采用自監(jiān)督CNN進(jìn)行圖像深度估計(jì)的方法

    為了提高利用深度神經(jīng)網(wǎng)絡(luò)預(yù)測圖像深度信息的精確度,提出了一種采用自監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像深度估計(jì)
    發(fā)表于 04-27 16:06 ?13次下載
    采用自監(jiān)督CNN進(jìn)行<b class='flag-5'>單</b>圖像<b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>的方法

    ADF2022項(xiàng)開源

    電子發(fā)燒友網(wǎng)站提供《ADF2022項(xiàng)開源.zip》資料免費(fèi)下載
    發(fā)表于 07-05 09:42 ?2次下載
    ADF2022項(xiàng)<b class='flag-5'>目</b><b class='flag-5'>開源</b>

    基于幾何3D目標(biāo)檢測的密集幾何約束深度估計(jì)

    基于幾何的3D目標(biāo)檢測通過2D-3D投影約束估計(jì)目標(biāo)的位置。具體來說,網(wǎng)絡(luò)預(yù)測目標(biāo)的尺寸(),旋轉(zhuǎn)角。假設(shè)一個目標(biāo)有n個語義關(guān)鍵點(diǎn),論文回歸第i個關(guān)鍵點(diǎn)在圖像坐標(biāo)中的2D坐標(biāo)和object
    的頭像 發(fā)表于 10-09 15:51 ?943次閱讀

    密集SLAM的概率體積融合概述

    我們提出了一種利用深度密集 SLAM 和快速不確定性傳播從圖像重建 3D 場景的新方法。所提出的方法能夠密集、準(zhǔn)確、實(shí)時地 3D 重建場景,同時對來自密集
    的頭像 發(fā)表于 01-30 11:34 ?686次閱讀

    立體視覺:我用相機(jī)求了個體積!

    一般而言,是無法依靠自身來完成測量的,有企業(yè)選擇讓相機(jī)動起來,但是一旦動起來實(shí)際上也是雙目,不再是
    的頭像 發(fā)表于 03-01 11:19 ?1126次閱讀

    一種用于自監(jiān)督深度估計(jì)的輕量級CNN和Transformer架構(gòu)

    自監(jiān)督深度估計(jì)不需要地面實(shí)況訓(xùn)練,近年來受到廣泛關(guān)注。設(shè)計(jì)輕量級但有效的模型非常有意義,這樣它們就可以部署在邊緣設(shè)備上。
    的頭像 發(fā)表于 03-14 17:54 ?2197次閱讀

    介紹第一個結(jié)合相對和絕對深度的多模態(tài)深度估計(jì)網(wǎng)絡(luò)

    深度估計(jì)分為兩個派系,metric depth estimation(度量深度估計(jì),也稱絕對
    的頭像 發(fā)表于 03-21 18:01 ?5712次閱讀

    使用python和opencv實(shí)現(xiàn)攝像機(jī)測距

    我的論文方向目前是使用攝像頭實(shí)現(xiàn)機(jī)器人對人的跟隨,首先攝像頭與kinect等深度攝像頭最大的區(qū)別是無法有效獲取
    的頭像 發(fā)表于 07-03 10:01 ?3042次閱讀
    使用python和opencv實(shí)現(xiàn)<b class='flag-5'>單</b><b class='flag-5'>目</b>攝像機(jī)測距

    一種利用幾何信息的自監(jiān)督深度估計(jì)框架

    本文方法是一種自監(jiān)督的深度估計(jì)框架,名為GasMono,專門設(shè)計(jì)用于室內(nèi)場景。本方法通過應(yīng)用多視圖幾何的方式解決了室內(nèi)場景中幀間大旋轉(zhuǎn)和低紋理導(dǎo)致自監(jiān)督
    發(fā)表于 11-06 11:47 ?434次閱讀
    一種利用幾何信息的自監(jiān)督<b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b>框架

    動態(tài)場景下的自監(jiān)督深度估計(jì)方案

    自監(jiān)督深度估計(jì)的訓(xùn)練可以在大量無標(biāo)簽視頻序列來進(jìn)行,訓(xùn)練集獲取很方便。但問題是,實(shí)際采集的視頻序列往往會有很多動態(tài)物體,而自監(jiān)督訓(xùn)練本身就是基于靜態(tài)環(huán)境假設(shè),動態(tài)環(huán)境下會失效。
    發(fā)表于 11-28 09:21 ?729次閱讀
    動態(tài)場景下的自監(jiān)督<b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計(jì)</b><b class='flag-5'>方案</b>