在物體部件分割和室內(nèi)、室外物體分割任務(wù)上的效果圖(無需任何人工標(biāo)注):
1. Introduction
三維點(diǎn)云物體分割是三維場(chǎng)景理解的關(guān)鍵問題之一,也是自動(dòng)駕駛、智能機(jī)器人等應(yīng)用的基礎(chǔ)。然而,目前的主流方法都是基于監(jiān)督學(xué)習(xí),需要大量人工標(biāo)注的數(shù)據(jù),而對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行人工標(biāo)注是十分耗費(fèi)時(shí)間和人力的。
2. Motivation
本文旨在尋求一種無監(jiān)督的3D物體分割方法。我們發(fā)現(xiàn),運(yùn)動(dòng)信息有望幫助我們實(shí)現(xiàn)這一目標(biāo)。如下圖1所示,在左圖中的藍(lán)色/橙色圓圈內(nèi),一輛汽車上的所有點(diǎn)一起向前運(yùn)動(dòng),而場(chǎng)景中其他的點(diǎn)則保持靜止。那么理論上,我們可以基于每個(gè)點(diǎn)的運(yùn)動(dòng),將場(chǎng)景中屬于汽車的點(diǎn)和其他點(diǎn)分割開,實(shí)現(xiàn)右圖中的效果。
Figure 1. 利用運(yùn)動(dòng)信息分割物體的motivation
利用運(yùn)動(dòng)信息分割3D物體的想法已經(jīng)在一些現(xiàn)有的工作中得到了探索。例如,[1] 和 [2] 利用傳統(tǒng)的稀疏子空間聚類的方法從點(diǎn)云序列中分割運(yùn)動(dòng)的物體;SLIM [3] 提出了第一個(gè)基于學(xué)習(xí)的方法來分割運(yùn)動(dòng)的前景和靜止的背景。然而,現(xiàn)有的方法都在以下的一個(gè)或多個(gè)方面存在局限性:
1)只適用于特定場(chǎng)景,不具備通用性;
2)只能實(shí)現(xiàn)運(yùn)動(dòng)的前景和靜止的背景之間的二類分割,無法進(jìn)一步區(qū)分前景中的多個(gè)物體;
3)(幾乎所有的現(xiàn)有方法都存在的局限)必須要多幀的點(diǎn)云序列作為輸入,而且只能分割出其中在運(yùn)動(dòng)的物體。但是理論上,我們利用運(yùn)動(dòng)信息學(xué)會(huì)辨別某些物體之后,當(dāng)這些物體以靜止的狀態(tài)出現(xiàn)在單幀點(diǎn)云中,我們應(yīng)該依然能辨別它們。
針對(duì)上述問題,我們希望設(shè)計(jì)一種通用的、能分割多個(gè)物體的無監(jiān)督3D物體分割方法:這種方法在完全無標(biāo)注的點(diǎn)云序列上進(jìn)行訓(xùn)練,從運(yùn)動(dòng)信息中學(xué)習(xí)3D物體分割;經(jīng)過訓(xùn)練后,能夠直接在單幀點(diǎn)云上進(jìn)行物體分割。為此,本文提出了無監(jiān)督的3D物體分割方法OGC (Object Geometry Consistency)。本文的主要貢獻(xiàn)包括以下三點(diǎn):
1)我們提出了第一個(gè)通用的無監(jiān)督3D物體分割框架OGC,訓(xùn)練過程中無需任何人工標(biāo)注,從點(diǎn)云序列包含的運(yùn)動(dòng)信息中學(xué)習(xí);經(jīng)過訓(xùn)練后能直接在單幀點(diǎn)云上進(jìn)行物體分割。
2)作為OGC框架的核心,我們以物體在運(yùn)動(dòng)中保持幾何形狀一致作為約束條件,設(shè)計(jì)了一組損失函數(shù),能夠有效地利用運(yùn)動(dòng)信息為物體分割提供監(jiān)督信號(hào)。
3)我們?cè)谖矬w部件分割和室內(nèi)、室外物體分割任務(wù)上都取得了非常好的效果。
3. Method
3.1 Overview
如下圖2所示,我們的框架包括三個(gè)部分:
1)一個(gè)物體分割網(wǎng)絡(luò)(橙色部分),從單幀點(diǎn)云估計(jì)物體分割mask;
2)一個(gè)自監(jiān)督的場(chǎng)景流估計(jì)網(wǎng)絡(luò)(綠色部分),估計(jì)兩幀點(diǎn)云之間的運(yùn)動(dòng)(場(chǎng)景流);
3)一組損失函數(shù)(藍(lán)色部分),利用2)估計(jì)出的運(yùn)動(dòng)為1)輸出的物體分割mask提供監(jiān)督信號(hào)。
在訓(xùn)練過程中,需要三個(gè)部分聯(lián)合工作;在訓(xùn)練后,只需保留1)的物體分割網(wǎng)絡(luò),即可用于分割單幀點(diǎn)云。
Figure 2 OGC示意圖
對(duì)于OGC框架中的物體分割網(wǎng)絡(luò)和場(chǎng)景流估計(jì)網(wǎng)絡(luò),我們可以直接利用現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu),如下圖3所示。具體來說:
1)物體分割網(wǎng)絡(luò):我們采用PointNet++ [4] 從輸入的單幀點(diǎn)云提取特征,然后用Transformer [5] 解碼器直接從提取的點(diǎn)云特征估計(jì)出所有物體的分割mask,表示為。整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)可以視作最近在2D圖像上非常成功的物體分割方法MaskFormer [6] 向3D點(diǎn)云的拓展。
2)場(chǎng)景流估計(jì)網(wǎng)絡(luò):我們直接采用了最近非常成功的FlowStep3D [5],接收兩幀點(diǎn)云作為輸入,估計(jì)中的點(diǎn)的運(yùn)動(dòng)(場(chǎng)景流)。
Figure 3 OGC結(jié)構(gòu)圖
3.2 OGC Losses
OGC框架的關(guān)鍵,就在于如何利用運(yùn)動(dòng)信息為物體分割提供監(jiān)督信號(hào)。為此,我們?cè)O(shè)計(jì)了以下?lián)p失函數(shù):
1)Dynamic loss:現(xiàn)實(shí)世界中大部分物體的運(yùn)動(dòng)都可以用剛體變換來描述。因此在這項(xiàng)損失函數(shù)中,我們要求對(duì)每個(gè)估計(jì)出的物體分割mask,其中所包含的點(diǎn)的運(yùn)動(dòng)必須服從同一個(gè)剛體變換:
上式中表示每個(gè)物體分割mask上擬合出的剛體變換。如果一個(gè)mask實(shí)際上包含了兩個(gè)運(yùn)動(dòng)方向不同的物體,這兩個(gè)物體上點(diǎn)的運(yùn)動(dòng)必然不可能服從同一個(gè)剛體變換。此時(shí)用這兩個(gè)物體上的點(diǎn)強(qiáng)行擬合出的剛體變換與這些點(diǎn)的實(shí)際運(yùn)動(dòng)并不一致,這個(gè)mask就會(huì)被損失函數(shù)懲罰??梢钥吹?,dynamic loss能幫助我們區(qū)分運(yùn)動(dòng)方向不同的物體。但是,如果實(shí)際上屬于同一個(gè)物體的點(diǎn)被分割成兩塊,即“過度分割”,dynamic loss并不能懲罰這種情況。
2)Smoothness loss:物體上的點(diǎn)在空間中一般都是連接在一起的,否則物體就會(huì)斷裂?;谶@一事實(shí),我們提出了對(duì)物體分割mask的平滑性先驗(yàn),要求一個(gè)局部區(qū)域內(nèi)相互鄰近的點(diǎn)被分配到同一個(gè)物體:
上式中H表示某個(gè)點(diǎn)的領(lǐng)域內(nèi)包含的點(diǎn)的數(shù)量??梢钥吹絛ynamic loss和smoothness loss起到了相互對(duì)抗的效果:前者根據(jù)運(yùn)動(dòng)方向的不同將點(diǎn)區(qū)分開;后者則根據(jù)空間中的近鄰關(guān)系將鄰近的點(diǎn)聚合,以抵消潛在的“過度分割”問題。這兩項(xiàng)損失函數(shù)聯(lián)合起來,為分割場(chǎng)景中的運(yùn)動(dòng)物體提供了充足的監(jiān)督信號(hào)。
3)Invariance loss:我們希望將學(xué)習(xí)到的運(yùn)動(dòng)物體分割充分地泛化到外形相近的靜態(tài)物體。為此,我們要求物體分割網(wǎng)絡(luò)在面對(duì)處于不同位姿的同一物體時(shí),能夠無差別地辨別(分割)該物體。具體來說,我們對(duì)同一場(chǎng)景施加兩個(gè)不同的空間變換(旋轉(zhuǎn),平移和縮放)和,使得場(chǎng)景中物體的位姿都發(fā)生變化,然后我們要求場(chǎng)景的分割結(jié)果保持不變:
Invariance loss能有效地將從運(yùn)動(dòng)物體學(xué)習(xí)到的分割策略泛化到不同位姿的靜態(tài)物體。
3.3 Iterative Optimization
當(dāng)我們從運(yùn)動(dòng)信息中學(xué)會(huì)了分割物體,理論上我們可以用估計(jì)出的物體分割來提升對(duì)運(yùn)動(dòng)(場(chǎng)景流)的估計(jì)質(zhì)量,隨后從更準(zhǔn)確的運(yùn)動(dòng)信息中更好地學(xué)習(xí)分割物體。為實(shí)現(xiàn)這一目標(biāo),我們提出了如下圖4所示的“物體分割-運(yùn)動(dòng)估計(jì)”迭代優(yōu)化算法:初始階段,我們通過FlowStep3D網(wǎng)絡(luò)估計(jì)運(yùn)動(dòng)。在每一輪中,我們首先從當(dāng)前估計(jì)出的運(yùn)動(dòng)信息學(xué)習(xí)物體分割;隨后用我們的Object-aware ICP算法,基于估計(jì)出的物體分割來提升對(duì)運(yùn)動(dòng)的估計(jì)質(zhì)量,將改善后的運(yùn)動(dòng)估計(jì)送入下一輪。
Figure 4 “物體分割-運(yùn)動(dòng)估計(jì)”迭代優(yōu)化算法示意圖
在迭代過程中用到的Object-aware ICP算法,可以看作傳統(tǒng)的ICP算法向多物體場(chǎng)景的拓展,算法的具體細(xì)節(jié)可以參考原文附錄A.2。
4. Experiments
Evaluation on Synthetic Datasets
我們首先在SAPIEN數(shù)據(jù)集和我們?cè)谧约汉铣傻腛GC-DR / OGC-DRSV數(shù)據(jù)集上評(píng)估了OGC對(duì)物體部件分割和室內(nèi)物體分割任務(wù)的效果。從下面兩個(gè)表格可以看到,在高質(zhì)量的合成數(shù)據(jù)集上,OGC不僅領(lǐng)先于傳統(tǒng)的無監(jiān)督運(yùn)動(dòng)分割和聚類方法,還達(dá)到了接近甚至超越全監(jiān)督方法的效果。
Figure 5 不同方法在SAPIEN數(shù)據(jù)集上的定量結(jié)果對(duì)比
Figure 6不同方法在OGC-DR/OGC-DRSV數(shù)據(jù)集上的定量結(jié)果對(duì)比
Evaluation on Real-World Outdoor Datasets
接下來,我們?cè)u(píng)估OGC在極具挑戰(zhàn)性的室外物體分割任務(wù)上的表現(xiàn)。首先,我們?cè)贙ITTI Scene Flow(KITTI-SF)數(shù)據(jù)集上進(jìn)行評(píng)估。KITTI-SF包含200對(duì)點(diǎn)云用于訓(xùn)練,200單幀點(diǎn)云用于測(cè)試。實(shí)驗(yàn)結(jié)果如下表所示:我們的方法達(dá)到了與全監(jiān)督方法接近的優(yōu)異性能。
Figure 7不同方法在KITTI-SF數(shù)據(jù)集上的定量結(jié)果對(duì)比
在實(shí)際應(yīng)用中,有時(shí)無法收集到包含運(yùn)動(dòng)的序列數(shù)據(jù),但我們可以將相似場(chǎng)景中訓(xùn)練出的OGC模型泛化過來。這里,我們將上述KITTI-SF數(shù)據(jù)集上訓(xùn)練好的OGC模型拿來,直接用于分割KITTI Detection(KITTI-Det)和SemanticKITTI數(shù)據(jù)集中的單幀點(diǎn)云。注意:KITTI-Det和SemanticKITTI中的點(diǎn)云都是通過雷達(dá)采集的,比KITTI-SF中雙目相機(jī)采集的點(diǎn)云稀疏很多,且KITTI-SF(3769幀)和SemanticKITTI(23201幀)的數(shù)據(jù)規(guī)模都遠(yuǎn)遠(yuǎn)大于KITTI-SF。實(shí)驗(yàn)結(jié)果如下面兩張表所示:我們?cè)贙ITTI-SF上訓(xùn)練的OGC模型能直接泛化到稀疏的雷達(dá)點(diǎn)云數(shù)據(jù),并取得與全監(jiān)督方法接近的效果。
Figure 8在KITTI-Det數(shù)據(jù)集上的定量結(jié)果對(duì)比(*表示模型在KITTI-SF上訓(xùn)練)
Figure 9在SemanticKITTI數(shù)據(jù)集上的定量結(jié)果對(duì)比(*表示模型在KITTI-SF上訓(xùn)練)
Ablation Studies
我們?cè)赟APIEN數(shù)據(jù)集上對(duì)OGC框架的核心技術(shù)進(jìn)行了消融實(shí)驗(yàn):
1)損失函數(shù)設(shè)計(jì):從下方圖表可以看到,OGC的三個(gè)損失函數(shù)結(jié)合使用能帶來最好的效果。如果移除dynamic loss,所有點(diǎn)會(huì)被分到同一物體;如果移除smoothness loss,會(huì)出現(xiàn)“過度分割”的問題。
2)迭代優(yōu)化算法:可以看到,隨著迭代輪數(shù)增多,更高質(zhì)量的運(yùn)動(dòng)估計(jì)確實(shí)帶來了更好的物體分割表現(xiàn)。
Figure 10 在SAPIEN數(shù)據(jù)集上的消融實(shí)驗(yàn)(圖-左和表-上:損失函數(shù)設(shè)計(jì);表下:迭代優(yōu)化算法)
5. Summary
最后總結(jié)一下,我們提出了第一個(gè)點(diǎn)云上的無監(jiān)督3D物體分割框架。這個(gè)框架的核心是一組基于物體幾何形狀一致性的損失函數(shù),利用運(yùn)動(dòng)信息有效地監(jiān)督物體分割。我們的方法在完全無標(biāo)注的點(diǎn)云序列上訓(xùn)練,訓(xùn)練后可以直接用于分割單幀點(diǎn)云,在多種任務(wù)場(chǎng)景下都展示出了非常好的效果。未來OGC還可以進(jìn)一步拓展:
1)當(dāng)有少量標(biāo)注數(shù)據(jù)時(shí),如何將無監(jiān)督的OGC模型與這些標(biāo)注數(shù)據(jù)結(jié)合取得更好的性能;
2)當(dāng)有多幀作為輸入時(shí),如何利用多幀信息更好地分割。
審核編輯 :李倩
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4333瀏覽量
62720 -
智能機(jī)器人
+關(guān)注
關(guān)注
17文章
869瀏覽量
82369 -
分割算法
+關(guān)注
關(guān)注
0文章
10瀏覽量
7211
原文標(biāo)題:NeurIPS 2022 | 香港理工提出OGC:首個(gè)無監(jiān)督3D點(diǎn)云物體實(shí)例分割算法
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論