0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

設(shè)計(jì)時(shí)空自監(jiān)督學(xué)習(xí)框架來學(xué)習(xí)3D點(diǎn)云表示

3D視覺工坊 ? 來源:3D視覺工坊 ? 作者:3D視覺工坊 ? 2022-12-06 10:23 ? 次閱讀

論文作者:Siyuan Huang, Yichen Xie, Song-Chun Zhu, Yixin Zhu

點(diǎn)云是視覺分析和場(chǎng)景理解的典型3D表示。但各種3D場(chǎng)景理解任務(wù)仍然缺乏實(shí)用和可推廣的預(yù)訓(xùn)練模型,同時(shí)盡管3D點(diǎn)云數(shù)據(jù)在3D表示中無所不在,但與2D圖像數(shù)據(jù)相比,對(duì)3D點(diǎn)云進(jìn)行標(biāo)注要困難得多。因此,動(dòng)機(jī)是:正確利用大量未標(biāo)記的3D點(diǎn)云數(shù)據(jù)是大規(guī)模3D視覺分析和場(chǎng)景理解成功的必要條件。

自監(jiān)督學(xué)習(xí)成為表征學(xué)習(xí)的一個(gè)新興方向,在下游任務(wù)中具有巨大潛力。過去存在3D點(diǎn)云的自監(jiān)督學(xué)習(xí)方法,但它們完全依賴于通過重建3D點(diǎn)云進(jìn)行空間分析,這種自監(jiān)督學(xué)習(xí)的靜態(tài)視角被設(shè)計(jì)為復(fù)雜的操作、架構(gòu)或損失,使得訓(xùn)練和推廣到多樣化的下游任務(wù)變得困難。此外,盡管已經(jīng)提出了各種方法用于無監(jiān)督學(xué)習(xí)和點(diǎn)云的生成,但這些方法僅證明了在合成數(shù)據(jù)集上的形狀分類任務(wù)的有效性,而忽略了自然3D場(chǎng)景上預(yù)訓(xùn)練模型的更高級(jí)別任務(wù)。

針對(duì)3D場(chǎng)景理解的復(fù)雜性質(zhì),及其由相機(jī)視圖、照明、遮擋等帶來的巨大變化,該論文通過引入時(shí)空表示學(xué)習(xí)(STRL)框架來解決這一挑戰(zhàn)。STRL受BYOL的啟發(fā),只從正配對(duì)中學(xué)習(xí),使用兩個(gè)神經(jīng)網(wǎng)絡(luò):在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),它們相互作用并相互學(xué)習(xí)。在本文中,將分別介紹:點(diǎn)云的表示學(xué)習(xí)和自監(jiān)督學(xué)習(xí)、STRL的設(shè)計(jì)原則與實(shí)現(xiàn)、STRL框架的解析、STRL的優(yōu)勢(shì)、STRL所提出的方法、STRL所實(shí)現(xiàn)的細(xì)節(jié)、STRL的預(yù)訓(xùn)練及實(shí)驗(yàn),以及分析與總結(jié)。

1.點(diǎn)云的表示學(xué)習(xí)和自監(jiān)督學(xué)習(xí)

與結(jié)構(gòu)化數(shù)據(jù)(例如圖像)的傳統(tǒng)表示不同,點(diǎn)云是無序的向量集。這種獨(dú)特的性質(zhì)對(duì)表征的學(xué)習(xí)提出了額外的挑戰(zhàn)。盡管無序集上的深度學(xué)習(xí)方法可以應(yīng)用于點(diǎn)云,但這些方法沒有利用空間結(jié)構(gòu)。

1)考慮到空間結(jié)構(gòu),像PointNet這樣的方法直接將原始點(diǎn)云輸入神經(jīng)網(wǎng)絡(luò);這些網(wǎng)絡(luò)應(yīng)該是排列不變的,因?yàn)辄c(diǎn)云是無序集合。PointNet通過使用最大池化操作從一組點(diǎn)形成表示全局上下文的單個(gè)特征向量來實(shí)現(xiàn)這一目標(biāo)。

2)此后,研究人員提出了具有層次結(jié)構(gòu)、基于卷積的結(jié)構(gòu)或基于圖的信息聚合的表示學(xué)習(xí)方法。這些神經(jīng)網(wǎng)絡(luò)直接在原始點(diǎn)云上操作,自然地提供了逐點(diǎn)嵌入,特別適用于基于點(diǎn)的任務(wù)。

無監(jiān)督表征學(xué)習(xí)可以大致分為生成式學(xué)習(xí)或判別式學(xué)習(xí)方法。

1)生成方法,通常通過對(duì)數(shù)據(jù)分布或潛在嵌入進(jìn)行建模來根據(jù)像素或點(diǎn)重建輸入數(shù)據(jù)。這個(gè)過程可以通過基于能量的建模、自動(dòng)編或?qū)剐詫W(xué)習(xí)來實(shí)現(xiàn)。然而,這種無監(jiān)督機(jī)制在計(jì)算上是昂貴的,并且可泛化表示的學(xué)習(xí)不必要地依賴于恢復(fù)這種高級(jí)細(xì)節(jié)。

2)判別方法,包括自監(jiān)督學(xué)習(xí),無監(jiān)督地生成判別標(biāo)簽以促進(jìn)表示學(xué)習(xí),最近通過各種對(duì)比機(jī)制實(shí)現(xiàn)。與最大化數(shù)據(jù)似然的生成方法不同,最近的對(duì)比方法最大限度地保留了輸入數(shù)據(jù)與其編碼表示之間的互信息。

2.STRL的設(shè)計(jì)原則與實(shí)現(xiàn)

由于3D數(shù)據(jù)的監(jiān)督目標(biāo)性質(zhì),監(jiān)督訓(xùn)練在生成實(shí)用和可推廣的預(yù)訓(xùn)練模型方面存在困難。具體而言,在模型設(shè)計(jì)和學(xué)習(xí)中考慮了以下三個(gè)原則:

1)簡(jiǎn)單性

設(shè)計(jì)原則:盡管存在3D點(diǎn)云的自監(jiān)督學(xué)習(xí)方法,但它們完全依賴于通過重建3D點(diǎn)云進(jìn)行的空間分析。這種自監(jiān)督學(xué)習(xí)的靜態(tài)視角被明確地設(shè)計(jì)為復(fù)雜的操作、架構(gòu)或損失,使得訓(xùn)練和推廣到多樣化的下游任務(wù)變得困難。因此認(rèn)為,這種復(fù)雜的設(shè)計(jì)是人為引入的,是不必要的,并且可以通過補(bǔ)充缺失的時(shí)間上下文線索來減少或消除。

設(shè)計(jì)實(shí)現(xiàn):值得注意的是,STRL在BYOL的啟發(fā)下,只從正配對(duì)中學(xué)習(xí),非常簡(jiǎn)單。具體來說,STRL使用兩個(gè)神經(jīng)網(wǎng)絡(luò),稱為在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),它們相互作用并相互學(xué)習(xí)。通過增強(qiáng)一個(gè)輸入,訓(xùn)練在線網(wǎng)絡(luò)預(yù)測(cè)另一個(gè)時(shí)間相關(guān)輸入的目標(biāo)網(wǎng)絡(luò)表示,該輸入是通過單獨(dú)的增強(qiáng)過程獲得的。

2)不變性

設(shè)計(jì)原則:通過數(shù)據(jù)增強(qiáng)和對(duì)比學(xué)習(xí)數(shù)據(jù)不變性,已在圖像和視頻上顯示出良好的結(jié)果。一個(gè)自然的問題出現(xiàn)了:如何引入和利用 3D 點(diǎn)云的不變性來進(jìn)行自監(jiān)督學(xué)習(xí)?

設(shè)計(jì)實(shí)現(xiàn):為了學(xué)習(xí)不變性表示,探索了嵌入在 3D 點(diǎn)云中的不可分割的時(shí)空上下文線索。在方法中,在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的輸入在時(shí)間上是相關(guān)的,從點(diǎn)云序列中采樣。具體來說,對(duì)于自然圖像/視頻,在深度序列中采樣兩個(gè)具有自然視點(diǎn)變化的幀作為輸入對(duì)。對(duì)于 3D 形狀這樣的合成數(shù)據(jù),通過旋轉(zhuǎn)、平移和縮放來增強(qiáng)原始輸入以模擬視點(diǎn)變化。輸入之間的時(shí)間差異利用模型來捕捉不同視角的隨機(jī)性和不變性。額外的空間增強(qiáng)進(jìn)一步促進(jìn)模型學(xué)習(xí)點(diǎn)云的 3D 空間結(jié)構(gòu)。

3)泛化性

設(shè)計(jì)原則:現(xiàn)有文獻(xiàn)僅在合成數(shù)據(jù)集上驗(yàn)證了形狀分類中的自監(jiān)督學(xué)習(xí)表示,與自然室內(nèi)的 3D 數(shù)據(jù)或戶外環(huán)境相比,其具有顯著不同的特征。因此,未能證明對(duì)更高級(jí)別任務(wù)(例如,3D 對(duì)象檢測(cè))有足夠的普遍性。

設(shè)計(jì)實(shí)現(xiàn):為了泛化學(xué)習(xí)表示,采用了幾個(gè)實(shí)用的網(wǎng)絡(luò)作為骨干模型。通過對(duì)大型數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,驗(yàn)證了學(xué)習(xí)到的表示可以很容易地直接適應(yīng)下游任務(wù),或者通過額外的特征微調(diào)。還證明了學(xué)習(xí)到的表示可以泛化到遠(yuǎn)距離域,不同于預(yù)訓(xùn)練域;例如,從 ScanNet 中學(xué)習(xí)的表示可以推廣到 ShapeNet 上的形狀分類任務(wù)和 SUN RGB-D 上的 3D 對(duì)象檢測(cè)任務(wù)。

3.STRL框架的解析

圖1:方法概述。通過從點(diǎn)云序列中學(xué)習(xí)時(shí)空數(shù)據(jù)不變性,自監(jiān)督地學(xué)習(xí)了一種有效的表示。

具體來說,STRL 將 3D 點(diǎn)云序列中的兩個(gè)時(shí)間相關(guān)幀作為輸入,通過空間數(shù)據(jù)增強(qiáng)對(duì)其進(jìn)行轉(zhuǎn)換,并自監(jiān)督地學(xué)習(xí)不變表示。

基于BYOL設(shè)計(jì)了所提出的時(shí)空表示學(xué)習(xí)(STRL),并將其簡(jiǎn)單性擴(kuò)展到3D點(diǎn)云表示的學(xué)習(xí)。下圖說明了所提出的方法。

圖 2:自監(jiān)督學(xué)習(xí)框架的圖示。

STRL 通過兩個(gè)網(wǎng)絡(luò)的交互無監(jiān)督地學(xué)習(xí)表示:在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。在這里,自監(jiān)督學(xué)習(xí)的本質(zhì)是訓(xùn)練在線網(wǎng)絡(luò)準(zhǔn)確預(yù)測(cè)目標(biāo)網(wǎng)絡(luò)的表示。

給定兩個(gè)時(shí)空相關(guān)的 3D 點(diǎn)云:

1)在線網(wǎng)絡(luò)通過預(yù)測(cè)器預(yù)測(cè)目標(biāo)網(wǎng)絡(luò)的表示;

2)目標(biāo)網(wǎng)絡(luò)的參數(shù)由在線網(wǎng)絡(luò)的移動(dòng)平均線更新。

3D 點(diǎn)云的 STRL 算法流程:

輸入:

輸出:

4.STRL的優(yōu)勢(shì)

1)方法優(yōu)于現(xiàn)有技術(shù)。通過使用 STRL 進(jìn)行預(yù)訓(xùn)練并將學(xué)習(xí)到的模型應(yīng)用于下游任務(wù),它在 ModelNet40上優(yōu)于最先進(jìn)的無監(jiān)督方法,并通過線性評(píng)估達(dá)到 90.9% 的 3D 形狀分類精度。在有限數(shù)據(jù)的情況下,半監(jiān)督學(xué)習(xí)的顯著改進(jìn);并且通過轉(zhuǎn)移預(yù)訓(xùn)練模型來提升下游任務(wù)。例如,通過微調(diào)改進(jìn)了SUN RGB-D和 KITTI 數(shù)據(jù)集上的 3D 對(duì)象檢測(cè),以及S3DIS上進(jìn)行的3D 語義分割。

2)簡(jiǎn)單的學(xué)習(xí)策略可以學(xué)習(xí)令人滿意的3D 表示性能。通過消融研究,觀察到 STRL 可以通過簡(jiǎn)單的增強(qiáng)來學(xué)習(xí)自監(jiān)督表示;它在 ModelNet40 線性分類上穩(wěn)健地實(shí)現(xiàn)了令人滿意的準(zhǔn)確率(約 85%),這與最近的發(fā)現(xiàn)相呼應(yīng),即簡(jiǎn)單地預(yù)測(cè) 3D 方向有助于學(xué)習(xí) 3D 點(diǎn)云的良好表示。

3)時(shí)空線索提高了學(xué)習(xí)表示的性能。僅依靠空間或時(shí)間增強(qiáng)只會(huì)產(chǎn)生相對(duì)較低的性能。相比之下,通過學(xué)習(xí)結(jié)合空間和時(shí)間線索的不變表示,將準(zhǔn)確度提高了 3%。

4)對(duì)合成 3D 形狀進(jìn)行預(yù)訓(xùn)練確實(shí)有助于實(shí)際應(yīng)用。最近的研究表明,從 ShapeNet 學(xué)習(xí)到的表征并沒有很好地泛化到下游任務(wù)。相反,STRL報(bào)告了相反的觀察結(jié)果,表明在 ShapeNet 上預(yù)訓(xùn)練的表示可以應(yīng)用于處理在物理世界中獲得的復(fù)雜數(shù)據(jù)的下游任務(wù),同時(shí)實(shí)現(xiàn)相當(dāng)甚至更好的性能。

5.STRL所提出的方法

5.1 構(gòu)建點(diǎn)云的時(shí)間序列

設(shè)計(jì)了兩種生成訓(xùn)練點(diǎn)云序列的方法,用來處理各種數(shù)據(jù)源:

1)Natural Sequence (自然序列)

2)Synthetic Sequence (合成序列)

靜態(tài)點(diǎn)云本質(zhì)上是空間的,與自然序列相比缺少關(guān)鍵的時(shí)間維度。給定一個(gè)點(diǎn)云p0 ,通過生成一個(gè)合成序列來解決這個(gè)問題。具體來說,連續(xù)旋轉(zhuǎn)、平移和縮放原始點(diǎn)云以構(gòu)建點(diǎn)云序列{pt} :

其中, t是變換的索引,Rt是采樣變換,模擬時(shí)間視圖的變化。

5.2 表征學(xué)習(xí)

設(shè)計(jì) STRL ,通過在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)這兩個(gè)網(wǎng)絡(luò)的交互,無監(jiān)督地學(xué)習(xí)表示。在這里,自監(jiān)督學(xué)習(xí)的本質(zhì)是訓(xùn)練在線網(wǎng)絡(luò)準(zhǔn)確預(yù)測(cè)目標(biāo)網(wǎng)絡(luò)的表示。

6.STRL所實(shí)現(xiàn)的細(xì)節(jié)

合成序列生成

通過以下變換的組合進(jìn)行采樣:

隨機(jī)旋轉(zhuǎn)。對(duì)于每個(gè)軸,在15英寸范圍內(nèi)繪制隨機(jī)角度并繞其旋轉(zhuǎn)。

隨機(jī)平移。在點(diǎn)云維度的10%內(nèi)全局平移點(diǎn)云。

隨機(jī)縮放。用因子縮放點(diǎn)云。 為了進(jìn)一步增加隨機(jī)性,以 0.5 的概率對(duì)每個(gè)變換進(jìn)行采樣和應(yīng)用。

空間增強(qiáng)

通過改變點(diǎn)云的局部幾何形狀來轉(zhuǎn)換輸入,這有助于 STRL 學(xué)習(xí)更好的點(diǎn)云空間結(jié)構(gòu)表示。具體來說,應(yīng)用以下轉(zhuǎn)換,類似于圖像數(shù)據(jù)增強(qiáng)。

隨機(jī)裁剪。一個(gè)隨機(jī)的 3D 長(zhǎng)方體面片被裁剪成一個(gè)在原始點(diǎn)云的 60% 到 100% 之間均勻采樣的體積??v橫比控制在以內(nèi)。

隨機(jī)剪切。切出一個(gè)隨機(jī)的 3D 長(zhǎng)方體。3D長(zhǎng)方體的每個(gè)維度都在原始維度的以內(nèi)。

隨機(jī)抖動(dòng)。每個(gè)點(diǎn)的 3D 位置都在內(nèi)移動(dòng)一個(gè)均勻隨機(jī)的偏移量。

隨機(jī)丟棄。通過 內(nèi)的丟棄率隨機(jī)丟棄 3D 點(diǎn)。

下采樣。通過隨機(jī)選取必要數(shù)量的3D點(diǎn),基于編碼器的輸入維度向下采樣點(diǎn)云。

標(biāo)準(zhǔn)化。在對(duì)合成數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),將點(diǎn)云歸一化以擬合單位球體。

在這些增強(qiáng)中,裁剪和剪切為點(diǎn)云的空間結(jié)構(gòu)帶來了更明顯的變化。因此,以0.5的概率應(yīng)用它們。

訓(xùn)練

使用 LARS 優(yōu)化器和余弦衰減學(xué)習(xí)率,warm-up為 10 個(gè)epochs但沒有重新啟動(dòng)。對(duì)于目標(biāo)網(wǎng)絡(luò),指數(shù)移動(dòng)平均參數(shù)從 0.996 開始,在訓(xùn)練過程中逐漸增加到 1。具體來說,設(shè)置為:

其中 k 是當(dāng)前訓(xùn)練步驟,K 是最大訓(xùn)練步驟數(shù)。

STRL 對(duì)不同的骨干編碼器有利且可泛化。projector和預(yù)測(cè)器被實(shí)現(xiàn)為具有激活和批量歸一化的多層感知(MLP)。對(duì)于大多數(shù)預(yù)訓(xùn)練模型,使用 64 到 256 的batch size 在 8 個(gè) TITAN RTX GPU 上。

圖 3:空間數(shù)據(jù)增強(qiáng)和時(shí)間序列生成。除了自然序列生成之外,每種類型的增強(qiáng)都使用內(nèi)部參數(shù)隨機(jī)轉(zhuǎn)換輸入的點(diǎn)云數(shù)據(jù)。

7.STRL的預(yù)訓(xùn)練及實(shí)驗(yàn)

構(gòu)建點(diǎn)云序列并執(zhí)行STRL的預(yù)訓(xùn)練,以學(xué)習(xí)點(diǎn)云數(shù)據(jù)的時(shí)空不變性。對(duì)于合成形狀和自然室內(nèi)/室外場(chǎng)景,使用不同策略生成點(diǎn)云的時(shí)間序列和采樣輸入對(duì)。

一、合成形狀

從ShapeNet數(shù)據(jù)集學(xué)習(xí)自監(jiān)督表示模型。它由來自55個(gè)類別的57448個(gè)合成對(duì)象組成。通過時(shí)間變換將每個(gè)點(diǎn)云擴(kuò)展為兩個(gè)不同的視圖,生成了兩個(gè)時(shí)間校正的點(diǎn)云。進(jìn)一步應(yīng)用空間增強(qiáng)以產(chǎn)生作為輸入的一對(duì)點(diǎn)云。

二、自然室內(nèi)和室外場(chǎng)景

從自然室內(nèi)和戶外場(chǎng)景中學(xué)習(xí)自監(jiān)督表示模型,其中點(diǎn)云序列很容易獲得。使用RGB-D傳感器,可以通過掃描不同的相機(jī)姿態(tài)來捕獲深度圖像序列。由于大多數(shù)場(chǎng)景都是平滑捕獲的,從相鄰幀之間的時(shí)間相關(guān)性中學(xué)習(xí)時(shí)間不變性。

1)對(duì)于室內(nèi)場(chǎng)景:

在ScanNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。它由707個(gè)獨(dú)特場(chǎng)景的1513個(gè)重建網(wǎng)格組成。在實(shí)驗(yàn)中,發(fā)現(xiàn)增加幀采樣頻率對(duì)性能的貢獻(xiàn)有限。因此,每100幀對(duì)原始深度序列進(jìn)行子采樣,作為每個(gè)場(chǎng)景的關(guān)鍵幀,得到1513個(gè)序列,總共大約25000幀。在預(yù)訓(xùn)練期間,基于每個(gè)序列的關(guān)鍵幀生成固定長(zhǎng)度的滑動(dòng)窗口,并在每個(gè)窗口中采樣兩個(gè)隨機(jī)幀。反向投影兩個(gè)幀,在世界坐標(biāo)中生成點(diǎn)云。使用相機(jī)位置將兩個(gè)點(diǎn)云轉(zhuǎn)換為相同的世界坐標(biāo);第一幀的相機(jī)中心是原點(diǎn)。

2)對(duì)于室外場(chǎng)景:

對(duì)KITTI數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。它包括100多個(gè)序列,分為6類。對(duì)于每個(gè)場(chǎng)景,圖像和點(diǎn)云以大約10 FPS的速度記錄。只使用激光雷達(dá)傳感器捕獲的點(diǎn)云序列。平均而言,每幀大約有120000個(gè)點(diǎn)。與ScanNet類似,對(duì)滑動(dòng)窗口中的關(guān)鍵幀和幀對(duì)進(jìn)行子采樣,作為訓(xùn)練對(duì)。對(duì)于自然場(chǎng)景的預(yù)訓(xùn)練,通過將合成時(shí)間變換應(yīng)用于兩個(gè)點(diǎn)云來進(jìn)一步增強(qiáng)數(shù)據(jù)多樣性。最后,將空間數(shù)據(jù)增強(qiáng)應(yīng)用于兩個(gè)點(diǎn)云。

形狀理解

使用 ModelNet40基準(zhǔn)評(píng)估預(yù)訓(xùn)練模型的形狀理解能力。它包含來自 40 個(gè)類別的 12,331 個(gè)對(duì)象(9,843 個(gè)用于訓(xùn)練,2,468 個(gè)用于測(cè)試)。使每個(gè)形狀在單位空間中被采樣到 10,000 個(gè)點(diǎn)。在 ShapeNet 數(shù)據(jù)集上預(yù)訓(xùn)練骨干模型。使用以下評(píng)估指標(biāo)來衡量學(xué)習(xí)到的表征。

形狀分類的線性評(píng)估為了對(duì) 3D 形狀進(jìn)行分類,在編碼的全局特征向量之上附加了一個(gè)線性支持向量機(jī) (SVM)。這些全局特征是通過在最后一個(gè)池化層之后提取激活來構(gòu)建的。STRL 可以靈活地與各種backbone一起工作。SVM 使用從 ModelNet40 數(shù)據(jù)集的訓(xùn)練集中提取的全局特征進(jìn)行訓(xùn)練。在預(yù)訓(xùn)練和 SVM 訓(xùn)練期間,從每個(gè)形狀中隨機(jī)抽取 2048 個(gè)點(diǎn)。STRL 優(yōu)于 ModelNet40 上所有最先進(jìn)的無監(jiān)督和自監(jiān)督方法。 表 1:ModelNet40 上形狀分類線性評(píng)估的比較。線性分類器在 ShapeNet 數(shù)據(jù)集上通過不同的自監(jiān)督方法學(xué)習(xí)到的表示進(jìn)行訓(xùn)練。

形狀分類的監(jiān)督微調(diào)

通過監(jiān)督微調(diào)評(píng)估學(xué)習(xí)到的表示模型。預(yù)訓(xùn)練模型用作點(diǎn)云編碼器的初始權(quán)重,根據(jù) ModelNet40 數(shù)據(jù)集上的標(biāo)簽微調(diào) DGCNN 網(wǎng)絡(luò)。STRL 使最終分類準(zhǔn)確率顯著提高了 0.9%。這種改進(jìn)比以前的方法更顯著;它甚至達(dá)到了最先進(jìn)的監(jiān)督學(xué)習(xí)方法設(shè)定的可比性能。

此外,STRL 預(yù)訓(xùn)練模型可以顯著提高半監(jiān)督學(xué)習(xí)中提供有限標(biāo)記訓(xùn)練數(shù)據(jù)的分類性能。具體來說,隨機(jī)抽取不同比例的訓(xùn)練數(shù)據(jù),并確保每個(gè)類別至少選擇一個(gè)樣本。接下來,在監(jiān)督下對(duì)這些有限樣本的預(yù)訓(xùn)練模型進(jìn)行微調(diào),并評(píng)估其在完整測(cè)試集上的性能。結(jié)果表明,當(dāng)有 1%和 20%的訓(xùn)練樣本可用時(shí),所提出的模型獲得了 2.1% 和 1.6%的性能增益;當(dāng)可用的訓(xùn)練樣本較少時(shí),STRL 自監(jiān)督模型將更好地促進(jìn)下游任務(wù)。

表 2:在 ModelNet40 上微調(diào)的形狀分類。自監(jiān)督預(yù)訓(xùn)練模型作為監(jiān)督學(xué)習(xí)方法的初始權(quán)重。

Embedding可視化

使用自監(jiān)督方法可視化 PointNet 和 DGCNN 模型的學(xué)習(xí)特征;它顯示了 ModelNet10 測(cè)試集中不同類別樣本的嵌入。采用 t-SNE 進(jìn)行降維。觀察到,除了梳妝臺(tái)和床頭柜外,這兩種預(yù)訓(xùn)練模型都能很好地根據(jù)類別區(qū)分大多數(shù)樣本;它們通常看起來很相似,很難區(qū)分。

圖 4:學(xué)習(xí)特征的可視化。使用 t-SNE 可視化 ModelNet10 測(cè)試集中每個(gè)樣本的提取特征。兩種模型都在 ShapeNet 上進(jìn)行了預(yù)訓(xùn)練。

室內(nèi)場(chǎng)景理解

STRL 學(xué)習(xí)基于視圖變換的表示,適用于合成形狀和自然場(chǎng)景。因此,與主要執(zhí)行遷移學(xué)習(xí)以形成理解的先前工作不同,STRL 還可以促進(jìn)室內(nèi)/室外場(chǎng)景理解任務(wù)。從室內(nèi)場(chǎng)景理解入手,首先在 ScanNet 數(shù)據(jù)集上自監(jiān)督地預(yù)訓(xùn)練STRL,接下來,通過標(biāo)簽微調(diào)來評(píng)估 3D 對(duì)象檢測(cè)和語義分割的性能。

1)3D 對(duì)象檢測(cè)

3D 對(duì)象檢測(cè)要求模型根據(jù)輸入的 3D 點(diǎn)云預(yù)測(cè) 3D 邊界框及其對(duì)象類別。預(yù)訓(xùn)練后,在 SUN RGB-D數(shù)據(jù)集上微調(diào)和評(píng)估模型。它包含 10335 個(gè)單視圖 RGBD 圖像,分為 5285 個(gè)訓(xùn)練樣本和 5050 個(gè)驗(yàn)證樣本。對(duì)象使用 3D 邊界框和類別標(biāo)簽進(jìn)行標(biāo)注。使用 VoteNet進(jìn)行了這項(xiàng)實(shí)驗(yàn),這是一種廣泛使用的模型,以 3D 點(diǎn)云作為輸入。在預(yù)訓(xùn)練期間,通過在末尾添加最大池層來稍微修改其 PointNet++ 主干以獲得全局特征。與從頭開始訓(xùn)練 VoteNet 相比,預(yù)訓(xùn)練將檢測(cè)性能提高了1.2 mAP,表明從大型數(shù)據(jù)集(即 ScanNet)學(xué)習(xí)的表示可以成功地轉(zhuǎn)移到不同的數(shù)據(jù)集,并通過精細(xì)改進(jìn)高級(jí)任務(wù)的性能調(diào)整。它還比最先進(jìn)的自監(jiān)督學(xué)習(xí)方法高出 0.7 mAP 。

表 3:在 SUN RGB-D 上微調(diào)的 3D 對(duì)象檢測(cè)

2)3D 語義分割

將預(yù)訓(xùn)練模型轉(zhuǎn)移到斯坦福大型 3D 室內(nèi)空間 (S3DIS) 數(shù)據(jù)集上的 3D 語義分割任務(wù)。該數(shù)據(jù)集包含從 6 個(gè)室內(nèi)區(qū)域的 272 個(gè)房間掃描的 3D 點(diǎn)云,每個(gè)點(diǎn)都標(biāo)注為 13 個(gè)類別。使用僅具有幾何特征(XYZ 坐標(biāo))的 4096 個(gè)點(diǎn)作為模型輸入。在本實(shí)驗(yàn)中,DGCNN 網(wǎng)絡(luò)首先使用 STRL 在 ScanNet 上進(jìn)行預(yù)訓(xùn)練。在這里,專注于僅使用有限標(biāo)記數(shù)據(jù)的半監(jiān)督學(xué)習(xí)。因此,每次在區(qū)域 1-5 的一個(gè)區(qū)域上微調(diào)預(yù)訓(xùn)練模型,并在區(qū)域 6 上測(cè)試模型。預(yù)訓(xùn)練模型始終優(yōu)于從頭開始訓(xùn)練的模型,尤其是在小訓(xùn)練集。

表4:在 S3DIS 上微調(diào)的 3D 語義分割。在區(qū)域 1-5 之一上以半監(jiān)督方式訓(xùn)練預(yù)訓(xùn)練或初始化模型。以下性能是在 S3DIS 數(shù)據(jù)集的區(qū)域 6 上評(píng)估的。

室外場(chǎng)景理解

與室內(nèi)場(chǎng)景相比,由于激光雷達(dá)傳感器的遠(yuǎn)距離特性,在室外環(huán)境中捕獲的點(diǎn)云要稀疏得多,這帶來了額外的挑戰(zhàn)。通過將學(xué)習(xí)到的視覺表示轉(zhuǎn)移到室外場(chǎng)景的 3D 對(duì)象檢測(cè)任務(wù)來評(píng)估所提出的 STRL 的性能。

使用 PV -RCNN在 KITTI 數(shù)據(jù)集上預(yù)訓(xùn)練模型——用于 3D 對(duì)象檢測(cè)的最先進(jìn)模型。與 VoteNet 類似,修改了 PV -RCNN 的骨干網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,通過添加最大池化層來獲取全局特征。

在 KITTI 3D 對(duì)象檢測(cè)基準(zhǔn)(KITTI 原始數(shù)據(jù)的一個(gè)子集)上微調(diào)預(yù)訓(xùn)練模型。在此基準(zhǔn)測(cè)試中,每個(gè)點(diǎn)云都用 3D 對(duì)象邊界框進(jìn)行注釋。該子集包括 3712 個(gè)訓(xùn)練樣本、3769 個(gè)驗(yàn)證樣本和 7518 個(gè)測(cè)試樣本。

在所有三個(gè)類別中,使用 STRL 預(yù)訓(xùn)練的模型都優(yōu)于從頭開始訓(xùn)練的模型。特別是,對(duì)于可用訓(xùn)練樣本最少的騎自行車者類別,建議的 STRL 產(chǎn)生顯著的性能提升。在微調(diào)的同時(shí)進(jìn)一步凍結(jié)了骨干模型;結(jié)果表明,與從頭開始訓(xùn)練的模型相比,具有預(yù)訓(xùn)練主干的模型達(dá)到了可比的性能。

表 5:在 KITTI 上微調(diào)的 3D 對(duì)象檢測(cè)。在 KITTI 數(shù)據(jù)集的 val集上報(bào)告了中等難度的 3D 檢測(cè)性能。下面的性能是通過具有 40 個(gè)召回位置的 mAP 評(píng)估的。

8.分析與總結(jié)

泛化能力

ScanNet vs ShapeNet 預(yù)訓(xùn)練什么樣的數(shù)據(jù)可以賦予學(xué)習(xí)模型對(duì)其他數(shù)據(jù)域更好的泛化能力,這仍然是 3D 計(jì)算機(jī)視覺中的一個(gè)懸而未決的問題。為了闡明這個(gè)問題,在現(xiàn)有最大的自然數(shù)據(jù)集 ScanNet 和合成數(shù)據(jù) ShapeNet 上預(yù)訓(xùn)練模型,并測(cè)試它們對(duì)不同領(lǐng)域的泛化能力。下表列出了跨域?qū)嶒?yàn)設(shè)置和結(jié)果,展示了從自然場(chǎng)景預(yù)訓(xùn)練模型到合成形狀域的成功遷移,在線性評(píng)估下實(shí)現(xiàn)了可比的形狀分類性能。

此外,報(bào)告了與最近一項(xiàng)研究相反的觀察結(jié)果。具體來說,在 ShapeNet 數(shù)據(jù)集上預(yù)訓(xùn)練的 VoteNet 模型在 SUN RGB-D 目標(biāo)檢測(cè)方面取得了比 ScanNet 預(yù)訓(xùn)練更好的性能,展示了 ShapeNet 數(shù)據(jù)更好的泛化能力。

三個(gè)潛在的原因?qū)е铝诉@種相互矛盾的結(jié)果:

1)如果適用于學(xué)習(xí)點(diǎn)云特征的編碼器過于簡(jiǎn)單,以至于無法從預(yù)訓(xùn)練的 ShapeNet 數(shù)據(jù)集中捕獲足夠的信息。

2)ShapeNet 數(shù)據(jù)集提供了具有干凈空間結(jié)構(gòu)和更少噪聲的點(diǎn)云,這有利于預(yù)訓(xùn)練模型學(xué)習(xí)有效的表示。

3)盡管 ScanNet 中的序列數(shù)據(jù)量很大,但模態(tài)可能仍然有限,因?yàn)樗挥?707 個(gè)場(chǎng)景。

時(shí)間轉(zhuǎn)換

學(xué)習(xí)了物體形狀的合成視圖變換和物理場(chǎng)景的自然視圖變換。為了研究它們的效果,在 ShapeNet 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練時(shí),通過刪除某些轉(zhuǎn)換來生成合成形狀的訓(xùn)練數(shù)據(jù)來解開組合。對(duì)于物理場(chǎng)景,在 KITTI 數(shù)據(jù)集上預(yù)訓(xùn)練 PV -RCNN,并比較使用和不使用自然序列采樣輸入數(shù)據(jù)訓(xùn)練的模型。在這兩種情況下,時(shí)間轉(zhuǎn)換都會(huì)帶來顯著的性能提升。

消融研究:時(shí)間變換。 (a) 合成形狀。通過不同時(shí)間變換下的線性評(píng)估來評(píng)估 ModelNet40 上預(yù)訓(xùn)練的 PointNet 模型。(b) 物理場(chǎng)景。凍結(jié) PV-RCNN 主干并微調(diào) KITTI 上的 3D 物體檢測(cè)器。它顯示了汽車檢測(cè) 的 mAP 結(jié)果(在 40 個(gè)召回位置以下)。從自然序列中采樣輸入數(shù)據(jù)。

空間數(shù)據(jù)增強(qiáng)

通過關(guān)閉某些類型的增強(qiáng)來研究空間數(shù)據(jù)增強(qiáng)的效果。通過將點(diǎn)云增加到不同的形狀和維度,隨機(jī)裁剪可以提高性能,而隨機(jī)剪切會(huì)損害性能,因?yàn)樗茐牧它c(diǎn)云的結(jié)構(gòu)連續(xù)性,這對(duì)于來自鄰居的逐點(diǎn)特征聚合至關(guān)重要。

消融研究:空間數(shù)據(jù)增強(qiáng)。使用不同的空間變換在 ShapeNet 上預(yù)訓(xùn)練 PointNet 模型。下表的性能反映了 ModelNet40 上的線性評(píng)估結(jié)果。

數(shù)據(jù)效率

為了進(jìn)一步分析訓(xùn)練數(shù)據(jù)的大小如何影響模型,通過從整個(gè) 1513 個(gè)序列中采樣 25000 幀深度圖像,使用 ScanNet 數(shù)據(jù)集的一個(gè)子集預(yù)訓(xùn)練 DGCNN 模型。在 ModelNet40 上進(jìn)行評(píng)估,與 40 萬幀的整集訓(xùn)練相比,模型的線性評(píng)估和微調(diào)性能僅下降約 0.5%;這樣的結(jié)果類似于 2D 圖像預(yù)訓(xùn)練。假設(shè)增加數(shù)據(jù)多樣性而不是采樣密度會(huì)提高自監(jiān)督 3D 表示學(xué)習(xí)的性能。

魯棒性

觀察到所提出的 STRL 可以通過簡(jiǎn)單的增強(qiáng)來學(xué)習(xí)自監(jiān)督表示;它在 ModelNet40 線性分類上穩(wěn)健地達(dá)到了令人滿意的準(zhǔn)確率(約 85%)。然而,它與 2D 圖像預(yù)訓(xùn)練中顯示的結(jié)果不同,其中數(shù)據(jù)增強(qiáng)對(duì) ImageNet 線性評(píng)估的影響高達(dá) 10%。假設(shè)這種差異可能歸因于對(duì)點(diǎn)云執(zhí)行的一般下采樣過程,它引入了結(jié)構(gòu)噪聲并有助于不變特征學(xué)習(xí)。

總結(jié)

在這篇論文中,設(shè)計(jì)了一個(gè)時(shí)空自監(jiān)督學(xué)習(xí)框架來學(xué)習(xí) 3D 點(diǎn)云表示。方法具有簡(jiǎn)單的結(jié)構(gòu),并在將學(xué)習(xí)的表示轉(zhuǎn)移到各種下游 3D 場(chǎng)景理解任務(wù)方面展示了有希望的結(jié)果。未來,希望探索如何將當(dāng)前方法擴(kuò)展到整體 3D 場(chǎng)景理解,以及如何通過聯(lián)合訓(xùn)練來自各個(gè)領(lǐng)域的未標(biāo)記數(shù)據(jù)來彌合領(lǐng)域差距。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2878

    瀏覽量

    107548
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7030

    瀏覽量

    89038

原文標(biāo)題:STRL:3D 點(diǎn)云的時(shí)空自監(jiān)督表示學(xué)習(xí)

文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Arm成功將Arm KleidiAI軟件庫集成到騰訊研的Angel 機(jī)器學(xué)習(xí)框架

    Arm 與騰訊攜手合作,成功將 Arm KleidiAI 軟件庫集成到騰訊研的 Angel 機(jī)器學(xué)習(xí)框架。 ? 借助 KleidiAI 解鎖卓越性能、能效和可移植性,騰訊混元大模型能夠?qū)崿F(xiàn)更快
    的頭像 發(fā)表于 11-24 15:33 ?689次閱讀

    時(shí)空引導(dǎo)下的時(shí)間序列監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】最近,香港科技大學(xué)、上海AI Lab等多個(gè)組織聯(lián)合發(fā)布了一篇時(shí)間序列無監(jiān)督預(yù)訓(xùn)練的文章,相比原來的TS2Vec等時(shí)間序列表示學(xué)習(xí)工作,核心在于提出了將空間信息融入到預(yù)訓(xùn)練階段,即在預(yù)訓(xùn)練階段
    的頭像 發(fā)表于 11-15 11:41 ?257次閱讀
    <b class='flag-5'>時(shí)空</b>引導(dǎo)下的時(shí)間序列<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督學(xué)習(xí)</b><b class='flag-5'>框架</b>

    基于深度學(xué)習(xí)的三維點(diǎn)云分類方法

    近年來,點(diǎn)云表示已成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)之一,并廣泛應(yīng)用于自動(dòng)駕駛、虛擬現(xiàn)實(shí)、機(jī)器人等許多領(lǐng)域。雖然深度學(xué)習(xí)技術(shù)在處理常規(guī)結(jié)構(gòu)化的二維網(wǎng)格圖像數(shù)據(jù)方面取得了巨大成功,但在處理不規(guī)則、非結(jié)構(gòu)化的
    的頭像 發(fā)表于 10-29 09:43 ?461次閱讀
    基于深度<b class='flag-5'>學(xué)習(xí)</b>的三維<b class='flag-5'>點(diǎn)</b>云分類方法

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語法結(jié)構(gòu)的學(xué)習(xí),還包括對(duì)語言的深層次理解,如文化背景、語境含義和情感色彩等。 監(jiān)督學(xué)習(xí):模型采用
    發(fā)表于 08-02 11:03

    NVIDIA推出全新深度學(xué)習(xí)框架fVDB

    在 SIGGRAPH 上推出的全新深度學(xué)習(xí)框架可用于打造自動(dòng)駕駛汽車、氣候科學(xué)和智慧城市的 AI 就緒型虛擬表示。
    的頭像 發(fā)表于 08-01 14:31 ?611次閱讀

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    講解,包括偏置、權(quán)重、激活函數(shù);三要素包括網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)和優(yōu)化方法。章節(jié)最后總結(jié)了神經(jīng)網(wǎng)絡(luò)參數(shù)學(xué)習(xí)的關(guān)鍵步驟。 1.4章節(jié)描述了自然語言處理的相關(guān)知識(shí)點(diǎn),包括什么是自然語言處理、文本的向量化和
    發(fā)表于 07-25 14:33

    神經(jīng)網(wǎng)絡(luò)如何用無監(jiān)督算法訓(xùn)練

    神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成部分,其訓(xùn)練方式多樣,其中無監(jiān)督學(xué)習(xí)是一種重要的訓(xùn)練策略。無監(jiān)督學(xué)習(xí)旨在從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)、模式或規(guī)律,從而提取有用的特征表示。這種訓(xùn)練方
    的頭像 發(fā)表于 07-09 18:06 ?801次閱讀

    深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

    應(yīng)用中往往難以實(shí)現(xiàn)。因此,無監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中扮演著越來越重要的角色。本文旨在綜述深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法,包括自編碼器、生成對(duì)抗網(wǎng)絡(luò)、聚類算法等,并分析它們的原理、應(yīng)用場(chǎng)景以及優(yōu)
    的頭像 發(fā)表于 07-09 10:50 ?735次閱讀

    監(jiān)督深度學(xué)習(xí)實(shí)現(xiàn)單次非相干全息3D成像

    論文信息 背景引入 數(shù)字全息術(shù)因其能夠從單一視點(diǎn)對(duì)3D場(chǎng)景進(jìn)行成像而備受關(guān)注。與直接成像相比,數(shù)字全息是一種間接的多步驟成像過程,包括光學(xué)記錄全息圖和數(shù)值計(jì)算重建,為包括深度學(xué)習(xí)在內(nèi)的計(jì)算成像方法
    的頭像 發(fā)表于 05-13 17:38 ?448次閱讀
    無<b class='flag-5'>監(jiān)督</b>深度<b class='flag-5'>學(xué)習(xí)</b>實(shí)現(xiàn)單次非相干全息<b class='flag-5'>3D</b>成像

    機(jī)器人3D視覺引導(dǎo)系統(tǒng)框架介紹

    通過自主開發(fā)的3D掃描儀可獲準(zhǔn)確并且快速地獲取場(chǎng)景的點(diǎn)云圖像,通過3D識(shí)別算法,可實(shí)現(xiàn)在對(duì)點(diǎn)云圖中的多種目標(biāo)物體進(jìn)行識(shí)別和位姿估計(jì)。
    發(fā)表于 04-29 09:31 ?335次閱讀
    機(jī)器人<b class='flag-5'>3D</b>視覺引導(dǎo)系統(tǒng)<b class='flag-5'>框架</b>介紹

    CVPR&apos;24 Highlight!跟蹤3D空間中的一切!

    為了使用三維運(yùn)動(dòng)先驗(yàn)正則化估計(jì)的三維軌跡,模型另外預(yù)測(cè)了每條軌跡的剛性嵌入,這使能夠軟地分組表現(xiàn)出相同剛性體運(yùn)動(dòng)的像素,并為每個(gè)剛性集群強(qiáng)制執(zhí)行ARAP正則化。作者證明了剛性嵌入可以通過監(jiān)督學(xué)習(xí),并產(chǎn)生不同剛性部分的合理分割。
    的頭像 發(fā)表于 04-13 12:12 ?1255次閱讀
    CVPR&apos;24 Highlight!跟蹤<b class='flag-5'>3D</b>空間中的一切!

    基于深度學(xué)習(xí)的方法在處理3D點(diǎn)云進(jìn)行缺陷分類應(yīng)用

    背景部分介紹了3D點(diǎn)云應(yīng)用領(lǐng)域中公開可訪問的數(shù)據(jù)集的重要性,這些數(shù)據(jù)集對(duì)于分析和比較各種模型至關(guān)重要。研究人員專門設(shè)計(jì)了各種數(shù)據(jù)集,包括用于3D形狀分類、3D物體檢測(cè)和
    的頭像 發(fā)表于 02-22 16:16 ?1161次閱讀
    基于深度<b class='flag-5'>學(xué)習(xí)</b>的方法在處理<b class='flag-5'>3D</b><b class='flag-5'>點(diǎn)</b>云進(jìn)行缺陷分類應(yīng)用

    2024年AI領(lǐng)域?qū)?huì)有哪些新突破呢?

    傳統(tǒng)的機(jī)器學(xué)習(xí)需要大量的標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,但監(jiān)督學(xué)習(xí)可以通過無監(jiān)督的方式從大規(guī)模未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)到更有用的
    的頭像 發(fā)表于 01-24 09:58 ?2013次閱讀

    兩種應(yīng)用于3D對(duì)象檢測(cè)的點(diǎn)云深度學(xué)習(xí)方法

    是標(biāo)準(zhǔn) RGB 圖像與其關(guān)聯(lián)的“深度圖”的組合,目前由 Kinect 或英特爾實(shí)感技術(shù)使用。3D 數(shù)據(jù)可以對(duì)傳感器周圍環(huán)境進(jìn)行豐富的空間表示,并可應(yīng)用于機(jī)器人、智能家居設(shè)備、無人駕駛汽車或醫(yī)學(xué)成像。
    的頭像 發(fā)表于 01-03 10:32 ?1101次閱讀
    兩種應(yīng)用于<b class='flag-5'>3D</b>對(duì)象檢測(cè)的<b class='flag-5'>點(diǎn)</b>云深度<b class='flag-5'>學(xué)習(xí)</b>方法

    基于神經(jīng)輻射場(chǎng)的監(jiān)督多相機(jī)占用預(yù)測(cè)

    本研究提出了一種監(jiān)督的多攝相機(jī)3D占據(jù)預(yù)測(cè)方法,名為OccNeRF。該方法旨在解決無界場(chǎng)景的建模問題。
    的頭像 發(fā)表于 01-02 14:53 ?476次閱讀
    基于神經(jīng)輻射場(chǎng)的<b class='flag-5'>自</b><b class='flag-5'>監(jiān)督</b>多相機(jī)占用預(yù)測(cè)