0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

直接通過預(yù)測 3D 關(guān)鍵點(diǎn)來估計(jì)透明物體深度的 ML 系統(tǒng)

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2020-09-23 18:08 ? 次閱讀

計(jì)算機(jī)視覺應(yīng)用領(lǐng)域的核心問題是3D 物體的位置與方向的估計(jì),這與對象感知有關(guān)(如增強(qiáng)現(xiàn)實(shí)和機(jī)器人操作)。在這類應(yīng)用中,需要知道物體在真實(shí)世界中的 3D 位置,以便直接對物體進(jìn)行操作或在其四周正確放置模擬物。

圍繞這一主題已有大量研究,但此類研究雖然采用了機(jī)器學(xué)習(xí) (ML) 技術(shù),特別是 Deep Nets,但直接測量與物體的距離大多依賴于 Kinect 等深度感應(yīng)設(shè)備。而對于表面有光澤或透明的物體,直接采用深度感應(yīng)難以發(fā)揮作用。例如,下圖包括許多物體(左圖),其中兩個(gè)是透明的星星。深度感應(yīng)設(shè)備無法很好的為星星測量深度值,因此難以重建 3D 點(diǎn)云效果圖(右圖)。

Deep Nets
https://arxiv.org/abs/1901.04780

左圖:透明物體的 RGB 圖像;右圖:左側(cè)場景的深度重建效果四格圖,上排為深度圖像,下排為 3D 點(diǎn)云,左側(cè)圖格采用深度相機(jī)重建,右側(cè)圖格是 ClearGrasp 模型的輸出。需要注意的是,雖然 ClearGrasp 修復(fù)了星星的深度,但它卻錯(cuò)誤地識別了最右邊星星的實(shí)際深度

要解決這個(gè)問題,可以使用深度神經(jīng)網(wǎng)絡(luò)來修復(fù) (Inpainting) 透明物體的錯(cuò)誤深度圖,例如使用 ClearGrasp 提出的方法:給定透明物體的單個(gè) RGB-D 圖像,ClearGrasp 使用深度卷積網(wǎng)絡(luò)推斷透明表面法線、遮擋和遮擋邊界,然后通過這些信息完善場景中所有透明表面的初始深度估計(jì)(上圖最右)。這種方法很有前景,可以通過依賴深度的位置姿態(tài)估計(jì)方法處理具有透明物體的場景。但是修復(fù)可能會(huì)比較棘手,仍然可能導(dǎo)致深度錯(cuò)誤,尤其是完全使用合成圖像進(jìn)行訓(xùn)練的情況。

我們與斯坦福大學(xué) AI 實(shí)驗(yàn)室在 CVPR 2020 上合作發(fā)表了“KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects”,論文描述了直接通過預(yù)測 3D 關(guān)鍵點(diǎn)來估計(jì)透明物體深度的 ML 系統(tǒng)。為了訓(xùn)練該系統(tǒng),我們以半自動(dòng)化方式收集了真實(shí)世界中透明物體圖像的大型數(shù)據(jù)集,并使用人工選擇的 3D 關(guān)鍵點(diǎn)標(biāo)記有效姿態(tài)。然后開始訓(xùn)練深度模型(稱為 KeyPose),從單目或立體圖像中估計(jì)端到端 3D 關(guān)鍵點(diǎn),而不明確計(jì)算深度。

論文
https://openaccess.thecvf.com/content_CVPR_2020/html/Liu_KeyPose_Multi-View_3D_Labeling_and_Keypoint_Estimation_for_Transparent_Objects_CVPR_2020_paper.html

在訓(xùn)練期間,模型在見過和未見過的物體上運(yùn)行,無論是單個(gè)物體還是幾類物體。雖然 KeyPose 可以處理單目圖像,但立體圖像提供的額外信息使其結(jié)果提高了兩倍,根據(jù)物體不同,典型誤差在 5 毫米至 10 毫米之間。它對這些物體的姿態(tài)預(yù)測遠(yuǎn)高于當(dāng)前最先進(jìn)水平,即使其他方法帶有地面真實(shí)深度。我們將發(fā)布關(guān)鍵點(diǎn)標(biāo)記的透明物體數(shù)據(jù)集,供研究界使用。

關(guān)鍵點(diǎn)標(biāo)記的透明物體數(shù)據(jù)集
https://sites.google.com/corp/view/transparent-objects

透明物體數(shù)據(jù)集

為了方便收集大量真實(shí)世界圖像,我們建立了一個(gè)機(jī)器人數(shù)據(jù)收集系統(tǒng)。系統(tǒng)的機(jī)械臂通過軌跡移動(dòng),同時(shí)使用立體攝像頭和 Kinect Azure 深度攝像頭拍攝視頻。

使用帶有立體攝像頭和 Azure Kinect 設(shè)備的機(jī)械臂自動(dòng)捕捉圖像序列

目標(biāo)上的 AprilTags 可以讓攝像頭準(zhǔn)確跟蹤姿態(tài)。通過人工標(biāo)記每個(gè)視頻中少量圖像 2D 關(guān)鍵點(diǎn),我們可以使用多視角幾何圖形為視頻的所有幀提取 3D 關(guān)鍵點(diǎn),將標(biāo)記效率提高 100 倍。

我們捕捉了五種類別的 15 個(gè)不同透明物體的圖像,對每個(gè)物體使用 10 種不同的背景紋理和 4 種不同的姿勢,總計(jì)生成 600 個(gè)視頻序列,包括 4.8 萬個(gè)立體和深度圖像。我們還用不透明版本的物體捕捉了相同的圖像,以提供準(zhǔn)確的深度圖像。所有圖像都標(biāo)有 3D 關(guān)鍵點(diǎn)。我們將公開發(fā)布這一真實(shí)世界圖像數(shù)據(jù)集,為 ClearGrasp 合成數(shù)據(jù)集提供補(bǔ)充。

真實(shí)世界圖像數(shù)據(jù)集
https://sites.google.com/corp/view/transparent-objects

使用前期融合立體的 KeyPose 算法

針對關(guān)鍵點(diǎn)估計(jì),本項(xiàng)目獨(dú)立開發(fā)出直接使用立體圖像的概念;這一概念最近也出現(xiàn)在手動(dòng)跟蹤的環(huán)境下。下圖為基本思路:來自立體攝像頭的兩張圖像的物體被裁剪并饋送到 KeyPose 網(wǎng)絡(luò),該網(wǎng)絡(luò)預(yù)測一組稀疏的 3D 關(guān)鍵點(diǎn),代表物體的 3D 姿態(tài)。KeyPose 網(wǎng)絡(luò)使用 3D 關(guān)鍵點(diǎn)標(biāo)記完成監(jiān)督訓(xùn)練。

手動(dòng)跟蹤
https://bmvc2019.org/wp-content/uploads/papers/0219-paper.pdf

立體 KeyPose 的一個(gè)關(guān)鍵是使用允許網(wǎng)絡(luò)隱式計(jì)算視差的前期融合來混合立體圖像,與后期融合不同。后期融合是分別預(yù)測每個(gè)圖像的關(guān)鍵點(diǎn),然后再進(jìn)行組合。如下圖所示,KeyPose 的輸出圖像在平面上是 2D 關(guān)鍵點(diǎn)熱力圖,以及每個(gè)關(guān)鍵點(diǎn)的視差(即逆深度)熱力圖。這兩張熱力圖的組合會(huì)為每個(gè)關(guān)鍵點(diǎn)生成關(guān)鍵點(diǎn) 3D 坐標(biāo)。

Keypose 系統(tǒng)圖:立體圖像被傳遞到 CNN 模型,為每個(gè)關(guān)鍵點(diǎn)生成概率熱力圖。此熱力圖輸出關(guān)鍵點(diǎn)的 2D 圖像坐標(biāo) (U,V)。CNN 模型還為每個(gè)關(guān)鍵點(diǎn)生成一個(gè)視差(逆深度)熱力圖,與 (U,V) 坐標(biāo)結(jié)合時(shí),可以給出 3D 位置 (X,Y,Z)

相較于后期融合或單目輸入,前期融合立體通??梢赃_(dá)到兩倍的準(zhǔn)確率。

結(jié)果

下圖顯示了 KeyPose 對單個(gè)物體的定性結(jié)果。左側(cè)是一個(gè)原始立體圖像,中間是投射到圖像上的預(yù)測 3D 關(guān)鍵點(diǎn)。在右側(cè),我們將 3D 瓶子模型中的點(diǎn)可視化,并放置在由預(yù)測 3D 關(guān)鍵點(diǎn)確定的姿態(tài)上。該網(wǎng)絡(luò)高效準(zhǔn)確,在標(biāo)準(zhǔn) GPU 上僅用 5 ms 的時(shí)間就預(yù)測出瓶子的 5.2 mm MAE (Mean Absolute Error) 和杯子的 10.1 mm MAE 關(guān)鍵點(diǎn)。

下表為 KeyPose 類別級別估計(jì)的結(jié)果。測試集使用了訓(xùn)練集未見過的背景紋理。注意,MAE 從 5.8 mm 到 9.9 mm 不等,這表明該方法的準(zhǔn)確率非常高。

在類別級別數(shù)據(jù)上,KeyPose 與最先進(jìn)的 DenseFusion 系統(tǒng)進(jìn)行定量比較。我們?yōu)?DenseFusion 提供了兩個(gè)版本的深度:透明物體與不透明物體。<2cm是誤差小于 2cm 的估計(jì)百分比。MAE是關(guān)鍵點(diǎn)的平均絕對誤差,以 mm 為單位。

DenseFusion
https://arxiv.org/abs/1901.04780

有關(guān)定量結(jié)果以及消融研究的完整說明,請參見論文和補(bǔ)充材料以及 KeyPose 網(wǎng)站。

論文和補(bǔ)充材料
https://openaccess.thecvf.com/content_CVPR_2020/html/Liu_KeyPose_Multi-View_3D_Labeling_and_Keypoint_Estimation_for_Transparent_Objects_CVPR_2020_paper.html

KeyPose 網(wǎng)站
https://sites.google.com/corp/view/keypose/

結(jié)論

該研究表明,在不依賴深度圖像的情況下,從 RGB 圖像中可以準(zhǔn)確估計(jì)透明物體的 3D 姿態(tài)。經(jīng)過驗(yàn)證,立體圖像可以作為前期融合 Deep Net 的輸入。在其中,網(wǎng)絡(luò)被訓(xùn)練為直接從立體對中提取稀疏 3D 關(guān)鍵點(diǎn)。我們希望提供廣泛的帶標(biāo)簽透明物體數(shù)據(jù)集,推動(dòng)這一領(lǐng)域的發(fā)展。最后,盡管我們使用半自動(dòng)方法對數(shù)據(jù)集進(jìn)行了有效標(biāo)記,但我們希望在以后的工作中能夠采用自監(jiān)督方法來消除人工標(biāo)記。

致謝

感謝合著者:斯坦福大學(xué)的 Xingyu Liu 以及 Rico Jonschkowski 和 Anelia Angelova;以及在項(xiàng)目和論文撰寫過程中,與我們一起討論并為我們提供幫助的人,包括 Andy Zheng、Suran Song、Vincent Vanhoucke、Pete Florence 和 Jonathan Tompson。

原文標(biāo)題:機(jī)器人收集 + Keypose 算法:準(zhǔn)確估計(jì)透明物體的 3D 姿態(tài)

文章出處:【微信公眾號:TensorFlow】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    211

    文章

    28565

    瀏覽量

    207712
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1699

    瀏覽量

    46051

原文標(biāo)題:機(jī)器人收集 + Keypose 算法:準(zhǔn)確估計(jì)透明物體的 3D 姿態(tài)

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    2.5D3D封裝技術(shù)介紹

    。 2.5D封裝將die拉近,并通過硅中介連接。3D封裝實(shí)際上采用2.5D封裝,進(jìn)一步垂直堆疊die,使die之間的連接更短。通過這種方式
    的頭像 發(fā)表于 01-14 10:41 ?178次閱讀
    2.5<b class='flag-5'>D</b>和<b class='flag-5'>3D</b>封裝技術(shù)介紹

    3D深度感測的原理和使用二極管激光來實(shí)現(xiàn)深度感測的優(yōu)勢

    ? 本文介紹了3D深度感測的原理和使用二極管激光來實(shí)現(xiàn)深度感測的優(yōu)勢。 世界是三維的。這句話如此容易理解,以至于大多數(shù)人從未懷疑過自己感知世界的方式。但事實(shí)上,人的每只眼睛每次可捕獲一幅平面圖
    的頭像 發(fā)表于 01-07 09:54 ?104次閱讀
    <b class='flag-5'>3D</b><b class='flag-5'>深度</b>感測的原理和使用二極管激光來實(shí)現(xiàn)<b class='flag-5'>深度</b>感測的優(yōu)勢

    光學(xué)系統(tǒng)3D可視化

    Results Profile提供有關(guān)傳播光線的信 息,而后者只顯示組件和探測器。 在接下來的使用案例中,我們將重點(diǎn)介紹 System:3D視圖。 系統(tǒng):Ray Results Profile的3D
    發(fā)表于 01-06 08:53

    3D打印技術(shù),推動(dòng)手板打樣從概念到成品的高效轉(zhuǎn)化

    相關(guān)數(shù)據(jù),有效規(guī)避傳統(tǒng)大規(guī)模生產(chǎn)中容易造成的材料浪費(fèi)和庫存積壓問題,做到“能省則省”。尤其是在一小批量生產(chǎn)或定制產(chǎn)品的過程中,3D打印技術(shù)可以通過數(shù)字文件直接進(jìn)行生產(chǎn),節(jié)省模具的制造成本,為制造企業(yè)成功
    發(fā)表于 12-26 14:43

    3D線激光輪廓測量儀的關(guān)鍵參數(shù)——最大掃碼頻率

    3D線激光輪廓測量儀采用激光三角測量原理,通過發(fā)射激光束并接收反射光,實(shí)現(xiàn)對物體表面輪廓的精確三維測量。其核心優(yōu)勢在于能夠以高速和高精度捕捉物體表面的微小特征,生成高質(zhì)量的
    的頭像 發(fā)表于 12-09 16:01 ?184次閱讀

    物聯(lián)網(wǎng)行業(yè)中的模具定制方案_3D打印材料選型分享

    3D打印材料介紹 3D打印技術(shù)是一種快速制造技術(shù),它可以將數(shù)字模型轉(zhuǎn)化為實(shí)體物體3D打印材料是3D打印技術(shù)中不可或缺的一部分,它們
    的頭像 發(fā)表于 09-25 10:59 ?360次閱讀
    物聯(lián)網(wǎng)行業(yè)中的模具定制方案_<b class='flag-5'>3D</b>打印材料選型分享

    透明塑料件噴粉3D掃描CAV全尺寸檢測逆向3D建模設(shè)計(jì)服務(wù)-CASAIM

    3D建模
    中科院廣州電子
    發(fā)布于 :2024年08月30日 10:04:53

    透明樹脂材料3D打印服務(wù)全透應(yīng)用案例

    透明樹脂3D打印技術(shù)為設(shè)計(jì)師和創(chuàng)作者提供了獨(dú)特的創(chuàng)作可能性,特別是在需要全透效果的工藝品或模型制作中?,F(xiàn)如今,3D打印技術(shù)已經(jīng)成為一種引領(lǐng)未來科技發(fā)展的重要力量,而在眾多材料中,透明
    的頭像 發(fā)表于 07-21 15:22 ?593次閱讀

    3d打印機(jī)器人外殼模型ABS材料3D打印噴漆服務(wù)-CASAIM

    隨著科技的不斷發(fā)展,3D打印技術(shù)作為一種創(chuàng)新性的制造方式,正在改變我們的生活和制造業(yè)。它是一種通過逐層添加材料來構(gòu)建物體的制造方法。該技術(shù)允許我們通過CAD(計(jì)算機(jī)輔助設(shè)計(jì))軟件將數(shù)字
    的頭像 發(fā)表于 07-21 15:10 ?319次閱讀

    紫光展銳助力全球首款A(yù)I裸眼3D手機(jī)發(fā)布

    隨著消費(fèi)者對視覺體驗(yàn)需求的不斷提升,能讓用戶無需輔助設(shè)備即可感受立體影像的裸眼3D創(chuàng)新技術(shù)正逐漸成為市場的新寵,其市場前景備受關(guān)注。據(jù)第三方研究機(jī)構(gòu)預(yù)測,預(yù)計(jì)到2027年,全球裸眼3D產(chǎn)品出貨量將達(dá)
    的頭像 發(fā)表于 07-15 16:00 ?709次閱讀

    東莞透明件噴粉3D掃描偏差檢測尺寸測量抄數(shù)逆向設(shè)計(jì)-CASAIM

    3D掃描
    中科院廣州電子
    發(fā)布于 :2024年07月01日 16:38:13

    3D建模的特點(diǎn)和優(yōu)勢都有哪些?

    的應(yīng)用。 特點(diǎn): 1.三維模型化:3D建模允許用戶在虛擬空間內(nèi)創(chuàng)建具有長度、寬度和高度的物體,從而形成真實(shí)感十足的三維模型。 2.精確性:通過3D建模軟件,用戶可以精確地控制對象的尺寸
    的頭像 發(fā)表于 05-13 16:41 ?2557次閱讀

    機(jī)器人3D視覺引導(dǎo)系統(tǒng)框架介紹

    通過自主開發(fā)的3D掃描儀可獲準(zhǔn)確并且快速地獲取場景的點(diǎn)云圖像,通過3D識別算法,可實(shí)現(xiàn)在對點(diǎn)云圖中的多種目標(biāo)物體進(jìn)行識別和位姿
    發(fā)表于 04-29 09:31 ?356次閱讀
    機(jī)器人<b class='flag-5'>3D</b>視覺引導(dǎo)<b class='flag-5'>系統(tǒng)</b>框架介紹

    奧比中光攜多款3D相機(jī)深度參與國內(nèi)3D視覺最高規(guī)格會(huì)議

    4月19日-21日,國內(nèi)3D視覺最高規(guī)格會(huì)議China 3DV 2024大會(huì)在深圳舉行。奧比中光作為大會(huì)鉑金贊助商,攜多款不同技術(shù)路線的3D相機(jī)深度參與。
    的頭像 發(fā)表于 04-24 09:26 ?466次閱讀
    奧比中光攜多款<b class='flag-5'>3D</b>相機(jī)<b class='flag-5'>深度</b>參與國內(nèi)<b class='flag-5'>3D</b>視覺最高規(guī)格會(huì)議

    基于深度學(xué)習(xí)的方法在處理3D點(diǎn)云進(jìn)行缺陷分類應(yīng)用

    背景部分介紹了3D點(diǎn)云應(yīng)用領(lǐng)域中公開可訪問的數(shù)據(jù)集的重要性,這些數(shù)據(jù)集對于分析和比較各種模型至關(guān)重要。研究人員專門設(shè)計(jì)了各種數(shù)據(jù)集,包括用于3D形狀分類、3D物體檢測和
    的頭像 發(fā)表于 02-22 16:16 ?1249次閱讀
    基于<b class='flag-5'>深度</b>學(xué)習(xí)的方法在處理<b class='flag-5'>3D</b>點(diǎn)云進(jìn)行缺陷分類應(yīng)用