0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

首個無監(jiān)督3D點云物體實例分割算法

CVer ? 來源:CVer ? 作者:CVer ? 2022-11-09 15:15 ? 次閱讀

在物體部件分割和室內(nèi)、室外物體分割任務(wù)上的效果圖(無需任何人工標注):

f6cf184e-5f7f-11ed-8abf-dac502259ad0.gif

1. Introduction

三維點云物體分割是三維場景理解的關(guān)鍵問題之一,也是自動駕駛智能機器人等應(yīng)用的基礎(chǔ)。然而,目前的主流方法都是基于監(jiān)督學習,需要大量人工標注的數(shù)據(jù),而對點云數(shù)據(jù)進行人工標注是十分耗費時間和人力的。

2. Motivation

本文旨在尋求一種無監(jiān)督的3D物體分割方法。我們發(fā)現(xiàn),運動信息有望幫助我們實現(xiàn)這一目標。如下圖1所示,在左圖中的藍色/橙色圓圈內(nèi),一輛汽車上的所有點一起向前運動,而場景中其他的點則保持靜止。那么理論上,我們可以基于每個點的運動,將場景中屬于汽車的點和其他點分割開,實現(xiàn)右圖中的效果。

f9ec989e-5f7f-11ed-8abf-dac502259ad0.png

Figure 1. 利用運動信息分割物體的motivation

利用運動信息分割3D物體的想法已經(jīng)在一些現(xiàn)有的工作中得到了探索。例如,[1] 和 [2] 利用傳統(tǒng)的稀疏子空間聚類的方法從點云序列中分割運動的物體;SLIM [3] 提出了第一個基于學習的方法來分割運動的前景和靜止的背景。然而,現(xiàn)有的方法都在以下的一個或多個方面存在局限性:

1)只適用于特定場景,不具備通用性;

2)只能實現(xiàn)運動的前景和靜止的背景之間的二類分割,無法進一步區(qū)分前景中的多個物體;

3)(幾乎所有的現(xiàn)有方法都存在的局限)必須要多幀的點云序列作為輸入,而且只能分割出其中在運動的物體。但是理論上,我們利用運動信息學會辨別某些物體之后,當這些物體以靜止的狀態(tài)出現(xiàn)在單幀點云中,我們應(yīng)該依然能辨別它們。

針對上述問題,我們希望設(shè)計一種通用的、能分割多個物體的無監(jiān)督3D物體分割方法:這種方法在完全無標注的點云序列上進行訓練,從運動信息中學習3D物體分割;經(jīng)過訓練后,能夠直接在單幀點云上進行物體分割。為此,本文提出了無監(jiān)督的3D物體分割方法OGC (Object Geometry Consistency)。本文的主要貢獻包括以下三點:

1)我們提出了第一個通用的無監(jiān)督3D物體分割框架OGC,訓練過程中無需任何人工標注,從點云序列包含的運動信息中學習;經(jīng)過訓練后能直接在單幀點云上進行物體分割。

2)作為OGC框架的核心,我們以物體在運動中保持幾何形狀一致作為約束條件,設(shè)計了一組損失函數(shù),能夠有效地利用運動信息為物體分割提供監(jiān)督信號

3)我們在物體部件分割和室內(nèi)、室外物體分割任務(wù)上都取得了非常好的效果。

3. Method

3.1 Overview

如下圖2所示,我們的框架包括三個部分:

1)一個物體分割網(wǎng)絡(luò)(橙色部分),從單幀點云估計物體分割mask;

2)一個自監(jiān)督的場景流估計網(wǎng)絡(luò)(綠色部分),估計兩幀點云之間的運動(場景流);

3)一組損失函數(shù)(藍色部分),利用2)估計出的運動為1)輸出的物體分割mask提供監(jiān)督信號。

在訓練過程中,需要三個部分聯(lián)合工作;在訓練后,只需保留1)的物體分割網(wǎng)絡(luò),即可用于分割單幀點云。

fa348ee2-5f7f-11ed-8abf-dac502259ad0.png

Figure 2 OGC示意圖

對于OGC框架中的物體分割網(wǎng)絡(luò)和場景流估計網(wǎng)絡(luò),我們可以直接利用現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu),如下圖3所示。具體來說:

1)物體分割網(wǎng)絡(luò):我們采用PointNet++ [4] 從輸入的單幀點云fa5ccda8-5f7f-11ed-8abf-dac502259ad0.png提取特征,然后用Transformer [5] 解碼器直接從提取的點云特征估計出所有物體的分割mask,表示為fa697558-5f7f-11ed-8abf-dac502259ad0.png。整個網(wǎng)絡(luò)結(jié)構(gòu)可以視作最近在2D圖像上非常成功的物體分割方法MaskFormer [6] 向3D點云的拓展。

2)場景流估計網(wǎng)絡(luò):我們直接采用了最近非常成功的FlowStep3D [5],接收兩幀點云fa75626e-5f7f-11ed-8abf-dac502259ad0.png作為輸入,估計fa7f66ce-5f7f-11ed-8abf-dac502259ad0.png中的點的運動(場景流)fa8df752-5f7f-11ed-8abf-dac502259ad0.png

fa99cea6-5f7f-11ed-8abf-dac502259ad0.png

Figure 3 OGC結(jié)構(gòu)圖

3.2 OGC Losses

OGC框架的關(guān)鍵,就在于如何利用運動信息為物體分割提供監(jiān)督信號。為此,我們設(shè)計了以下?lián)p失函數(shù):

1)Dynamic loss:現(xiàn)實世界中大部分物體的運動都可以用剛體變換來描述。因此在這項損失函數(shù)中,我們要求對每個估計出的物體分割mask,其中所包含的點的運動必須服從同一個剛體變換:

faaaefec-5f7f-11ed-8abf-dac502259ad0.png

上式中fab8feca-5f7f-11ed-8abf-dac502259ad0.png表示每個物體分割mask上擬合出的剛體變換。如果一個mask實際上包含了兩個運動方向不同的物體,這兩個物體上點的運動必然不可能服從同一個剛體變換。此時用這兩個物體上的點強行擬合出的剛體變換與這些點的實際運動并不一致,這個mask就會被損失函數(shù)懲罰。可以看到,dynamic loss能幫助我們區(qū)分運動方向不同的物體。但是,如果實際上屬于同一個物體的點被分割成兩塊,即“過度分割”,dynamic loss并不能懲罰這種情況。

2)Smoothness loss:物體上的點在空間中一般都是連接在一起的,否則物體就會斷裂?;谶@一事實,我們提出了對物體分割mask的平滑性先驗,要求一個局部區(qū)域內(nèi)相互鄰近的點被分配到同一個物體:

fac9ec62-5f7f-11ed-8abf-dac502259ad0.png

上式中H表示某個點的領(lǐng)域內(nèi)包含的點的數(shù)量??梢钥吹絛ynamic loss和smoothness loss起到了相互對抗的效果:前者根據(jù)運動方向的不同將點區(qū)分開;后者則根據(jù)空間中的近鄰關(guān)系將鄰近的點聚合,以抵消潛在的“過度分割”問題。這兩項損失函數(shù)聯(lián)合起來,為分割場景中的運動物體提供了充足的監(jiān)督信號。

3)Invariance loss:我們希望將學習到的運動物體分割充分地泛化到外形相近的靜態(tài)物體。為此,我們要求物體分割網(wǎng)絡(luò)在面對處于不同位姿的同一物體時,能夠無差別地辨別(分割)該物體。具體來說,我們對同一場景施加兩個不同的空間變換(旋轉(zhuǎn),平移和縮放)fad95bac-5f7f-11ed-8abf-dac502259ad0.pngfae8e752-5f7f-11ed-8abf-dac502259ad0.png,使得場景中物體的位姿都發(fā)生變化,然后我們要求場景的分割結(jié)果保持不變:

faf5ebe6-5f7f-11ed-8abf-dac502259ad0.png

Invariance loss能有效地將從運動物體學習到的分割策略泛化到不同位姿的靜態(tài)物體。

3.3 Iterative Optimization

當我們從運動信息中學會了分割物體,理論上我們可以用估計出的物體分割來提升對運動(場景流)的估計質(zhì)量,隨后從更準確的運動信息中更好地學習分割物體。為實現(xiàn)這一目標,我們提出了如下圖4所示的“物體分割-運動估計”迭代優(yōu)化算法:初始階段,我們通過FlowStep3D網(wǎng)絡(luò)估計運動。在每一輪中,我們首先從當前估計出的運動信息學習物體分割;隨后用我們的Object-aware ICP算法,基于估計出的物體分割來提升對運動的估計質(zhì)量,將改善后的運動估計送入下一輪。

fb096806-5f7f-11ed-8abf-dac502259ad0.png

Figure 4 “物體分割-運動估計”迭代優(yōu)化算法示意圖

在迭代過程中用到的Object-aware ICP算法,可以看作傳統(tǒng)的ICP算法向多物體場景的拓展,算法的具體細節(jié)可以參考原文附錄A.2。

4. Experiments

Evaluation on Synthetic Datasets

我們首先在SAPIEN數(shù)據(jù)集和我們在自己合成的OGC-DR / OGC-DRSV數(shù)據(jù)集上評估了OGC對物體部件分割和室內(nèi)物體分割任務(wù)的效果。從下面兩個表格可以看到,在高質(zhì)量的合成數(shù)據(jù)集上,OGC不僅領(lǐng)先于傳統(tǒng)的無監(jiān)督運動分割和聚類方法,還達到了接近甚至超越全監(jiān)督方法的效果。

fb31ac30-5f7f-11ed-8abf-dac502259ad0.png

Figure 5 不同方法在SAPIEN數(shù)據(jù)集上的定量結(jié)果對比

fb56d6b8-5f7f-11ed-8abf-dac502259ad0.png

Figure 6不同方法在OGC-DR/OGC-DRSV數(shù)據(jù)集上的定量結(jié)果對比

Evaluation on Real-World Outdoor Datasets

接下來,我們評估OGC在極具挑戰(zhàn)性的室外物體分割任務(wù)上的表現(xiàn)。首先,我們在KITTI Scene Flow(KITTI-SF)數(shù)據(jù)集上進行評估。KITTI-SF包含200對點云用于訓練,200單幀點云用于測試。實驗結(jié)果如下表所示:我們的方法達到了與全監(jiān)督方法接近的優(yōu)異性能。

fb984698-5f7f-11ed-8abf-dac502259ad0.png

Figure 7不同方法在KITTI-SF數(shù)據(jù)集上的定量結(jié)果對比

在實際應(yīng)用中,有時無法收集到包含運動的序列數(shù)據(jù),但我們可以將相似場景中訓練出的OGC模型泛化過來。這里,我們將上述KITTI-SF數(shù)據(jù)集上訓練好的OGC模型拿來,直接用于分割KITTI Detection(KITTI-Det)和SemanticKITTI數(shù)據(jù)集中的單幀點云。注意:KITTI-Det和SemanticKITTI中的點云都是通過雷達采集的,比KITTI-SF中雙目相機采集的點云稀疏很多,且KITTI-SF(3769幀)和SemanticKITTI(23201幀)的數(shù)據(jù)規(guī)模都遠遠大于KITTI-SF。實驗結(jié)果如下面兩張表所示:我們在KITTI-SF上訓練的OGC模型能直接泛化到稀疏的雷達點云數(shù)據(jù),并取得與全監(jiān)督方法接近的效果。

fbc16bfe-5f7f-11ed-8abf-dac502259ad0.png

Figure 8在KITTI-Det數(shù)據(jù)集上的定量結(jié)果對比(*表示模型在KITTI-SF上訓練)

fbe3fcf0-5f7f-11ed-8abf-dac502259ad0.png

Figure 9在SemanticKITTI數(shù)據(jù)集上的定量結(jié)果對比(*表示模型在KITTI-SF上訓練)

Ablation Studies

我們在SAPIEN數(shù)據(jù)集上對OGC框架的核心技術(shù)進行了消融實驗:

1)損失函數(shù)設(shè)計:從下方圖表可以看到,OGC的三個損失函數(shù)結(jié)合使用能帶來最好的效果。如果移除dynamic loss,所有點會被分到同一物體;如果移除smoothness loss,會出現(xiàn)“過度分割”的問題。

2)迭代優(yōu)化算法:可以看到,隨著迭代輪數(shù)增多,更高質(zhì)量的運動估計確實帶來了更好的物體分割表現(xiàn)。

fc08f8ca-5f7f-11ed-8abf-dac502259ad0.png

Figure 10 在SAPIEN數(shù)據(jù)集上的消融實驗(圖-左和表-上:損失函數(shù)設(shè)計;表下:迭代優(yōu)化算法)

5. Summary

最后總結(jié)一下,我們提出了第一個點云上的無監(jiān)督3D物體分割框架。這個框架的核心是一組基于物體幾何形狀一致性的損失函數(shù),利用運動信息有效地監(jiān)督物體分割。我們的方法在完全無標注的點云序列上訓練,訓練后可以直接用于分割單幀點云,在多種任務(wù)場景下都展示出了非常好的效果。未來OGC還可以進一步拓展:

1)當有少量標注數(shù)據(jù)時,如何將無監(jiān)督的OGC模型與這些標注數(shù)據(jù)結(jié)合取得更好的性能;

2)當有多幀作為輸入時,如何利用多幀信息更好地分割。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4352

    瀏覽量

    63250
  • 智能機器人
    +關(guān)注

    關(guān)注

    17

    文章

    876

    瀏覽量

    83262
  • 分割算法
    +關(guān)注

    關(guān)注

    0

    文章

    10

    瀏覽量

    7225

原文標題:NeurIPS 2022 | 香港理工提出OGC:首個無監(jiān)督3D點云物體實例分割算法

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    對于結(jié)構(gòu)光測量、3D視覺的應(yīng)用,使用100%offset的lightcrafter是否能用于生成的應(yīng)用?

    你好,我有一些對于offset的疑問,希望能夠得到解答。 對于結(jié)構(gòu)光測量、3D視覺的應(yīng)用,使用100%offset的lightcrafter是否能用于生成的應(yīng)用? 標定和三角重建算法
    發(fā)表于 02-28 06:20

    SciChart 3D for WPF圖表庫

    剔除/重新采樣算法的混合提供。 借助 SciChart 的 WPF 3D 圖表庫,現(xiàn)在可以實時顯示 16,000 x 16,000 個表面網(wǎng)格(靜態(tài))或 1,000 x 1,000 個表
    的頭像 發(fā)表于 01-23 13:49 ?199次閱讀
    SciChart <b class='flag-5'>3D</b> for WPF圖表庫

    C#通過Halcon實現(xiàn)3D重繪

    C# 通過 Halcon 實現(xiàn) 3D 重繪
    發(fā)表于 01-05 09:16 ?0次下載

    采用華為 Flexus 服務(wù)器 X 實例部署 YOLOv3 算法完成目標檢測

    一、前言 1.1 開發(fā)需求 這篇文章講解:?采用華為最新推出的 Flexus 服務(wù)器 X 實例部署 YOLOv3 算法,完成圖像分析、目
    的頭像 發(fā)表于 01-02 12:00 ?199次閱讀
    采用華為<b class='flag-5'>云</b> Flexus <b class='flag-5'>云</b>服務(wù)器 X <b class='flag-5'>實例</b>部署 YOLOv<b class='flag-5'>3</b> <b class='flag-5'>算法</b>完成目標檢測

    3D線激光輪廓測量儀的關(guān)鍵參數(shù)——最大掃碼頻率

    3D線激光輪廓測量儀采用激光三角測量原理,通過發(fā)射激光束并接收反射光,實現(xiàn)對物體表面輪廓的精確三維測量。其核心優(yōu)勢在于能夠以高速和高精度捕捉物體表面的微小特征,生成高質(zhì)量的3D
    的頭像 發(fā)表于 12-09 16:01 ?323次閱讀

    物聯(lián)網(wǎng)行業(yè)中的模具定制方案_3D打印材料選型分享

    3D打印材料介紹 3D打印技術(shù)是一種快速制造技術(shù),它可以將數(shù)字模型轉(zhuǎn)化為實體物體。3D打印材料是3D打印技術(shù)中不可或缺的一部分,它們直接影響
    的頭像 發(fā)表于 09-25 10:59 ?465次閱讀
    物聯(lián)網(wǎng)行業(yè)中的模具定制方案_<b class='flag-5'>3D</b>打印材料選型分享

    歡創(chuàng)播報 騰訊元寶首發(fā)3D生成應(yīng)用

    1 騰訊元寶首發(fā)3D生成應(yīng)用 只需一張照片,便能迅速打造獨一二的3D角色。7月16日,騰訊旗下大模型應(yīng)用“騰訊元寶”上線了“3D角色夢工廠”玩法,騰訊元寶也是
    的頭像 發(fā)表于 07-18 11:39 ?907次閱讀
    歡創(chuàng)播報 騰訊元寶首發(fā)<b class='flag-5'>3D</b>生成應(yīng)用

    裸眼3D筆記本電腦——先進的光場裸眼3D技術(shù)

    隨著科技的不斷進步,裸眼3D技術(shù)已經(jīng)不再是科幻電影中的幻想。如今,英倫科技裸眼3D筆記本電腦將這一前沿科技帶到了我們的日常生活中。無論你是專業(yè)的3D模型設(shè)計師,還是希望在視頻播放和模型展示中體驗逼真
    的頭像 發(fā)表于 07-16 10:04 ?732次閱讀

    神經(jīng)網(wǎng)絡(luò)如何用監(jiān)督算法訓練

    標記數(shù)據(jù)的處理尤為有效,能夠充分利用互聯(lián)網(wǎng)上的海量數(shù)據(jù)資源。以下將詳細探討神經(jīng)網(wǎng)絡(luò)如何用監(jiān)督算法進行訓練,包括常見的監(jiān)督學習
    的頭像 發(fā)表于 07-09 18:06 ?1017次閱讀

    3D建模的重要內(nèi)容和應(yīng)用

    3D建模是一種技術(shù),通過計算機軟件創(chuàng)建虛擬三維模型,模擬現(xiàn)實世界中的物體或場景。這項技術(shù)廣泛應(yīng)用于建筑設(shè)計、電影制作、游戲開發(fā)、工程仿真等領(lǐng)域。下面古河科技將介紹一些與3D建模相關(guān)的
    的頭像 發(fā)表于 06-21 14:48 ?889次閱讀

    友思特案例 | 自研創(chuàng)新!三維工件尺寸測量及處理解決方案

    3D相機等新型傳感器的發(fā)展克服了傳統(tǒng)工件尺寸測量的各種局限,可獲取豐富的三維數(shù)據(jù)。友思特提供了一種工件3D尺寸測量和
    的頭像 發(fā)表于 06-13 14:13 ?630次閱讀
    友思特案例 | 自研創(chuàng)新!三維工件尺寸測量及<b class='flag-5'>點</b><b class='flag-5'>云</b>處理解決方案

    3D建模的特點和優(yōu)勢都有哪些?

    3D建模是一種用于創(chuàng)建三維對象的過程,它在許多領(lǐng)域都有著廣泛的應(yīng)用,包括動畫、游戲開發(fā)、建筑設(shè)計、工程以及制造業(yè)等。下面古河科技將介紹一些關(guān)于3D建模的內(nèi)容詳情,包括它的特點、優(yōu)勢以及一些常見
    的頭像 發(fā)表于 05-13 16:41 ?2983次閱讀

    機器人3D視覺引導系統(tǒng)框架介紹

    通過自主開發(fā)的3D掃描儀可獲準確并且快速地獲取場景的云圖像,通過3D識別算法,可實現(xiàn)在對云圖中的多種目標
    發(fā)表于 04-29 09:31 ?414次閱讀
    機器人<b class='flag-5'>3D</b>視覺引導系統(tǒng)框架介紹

    新質(zhì)生產(chǎn)力探索| AICG浪潮下的3D打印與3D掃描技術(shù)

    隨著技術(shù)的不斷進步,3D打印和3D掃描已經(jīng)成為現(xiàn)代制造業(yè)和設(shè)計領(lǐng)域的重要工具。為了深入探討這些技術(shù)的最新發(fā)展和應(yīng)用前景。蘑菇創(chuàng)客空間舉辦了以《AICG浪潮下的新質(zhì)生產(chǎn)力》為主題的開放夜活動,邀請
    的頭像 發(fā)表于 04-01 09:28 ?522次閱讀

    3D動畫原理:電阻

    電阻3D
    深圳崧皓電子
    發(fā)布于 :2024年03月19日 06:49:19