0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用于神經(jīng)場(chǎng)SLAM的矢量化對(duì)象建圖

3D視覺(jué)工坊 ? 來(lái)源:3D視覺(jué)工坊 ? 2023-06-15 09:29 ? 次閱讀

vMAP 是一種基于神經(jīng)場(chǎng)的對(duì)象級(jí)密集 SLAM 系統(tǒng),可根據(jù) RGB-D 輸入流實(shí)時(shí)自動(dòng)構(gòu)建對(duì)象級(jí)場(chǎng)景模型。每個(gè)對(duì)象都由一個(gè)單獨(dú)的 MLP 神經(jīng)場(chǎng)模型表示,無(wú)需 3D 先驗(yàn)即可實(shí)現(xiàn)高效、無(wú)懈可擊的對(duì)象建模。該系統(tǒng)可以在單個(gè)場(chǎng)景中優(yōu)化多達(dá) 50 個(gè)單獨(dú)的對(duì)象,與之前的神經(jīng)場(chǎng) SLAM 系統(tǒng)相比,可以顯著提高場(chǎng)景級(jí)和對(duì)象級(jí)的重建質(zhì)量。

摘要

我們提出了 vMAP,一種使用神經(jīng)場(chǎng)表示的對(duì)象級(jí)密集 SLAM 系統(tǒng)。每個(gè)對(duì)象都由一個(gè)小型 MLP 表示,無(wú)需 3D 先驗(yàn)即可實(shí)現(xiàn)高效、無(wú)懈可擊的對(duì)象建模。

當(dāng) RGB-D 相機(jī)在沒(méi)有先驗(yàn)信息的情況下瀏覽場(chǎng)景時(shí),vMAP 會(huì)即時(shí)檢測(cè)對(duì)象實(shí)例,并將它們動(dòng)態(tài)添加到其地圖中。具體來(lái)說(shuō),由于矢量化訓(xùn)練的強(qiáng)大功能,vMAP 可以在單個(gè)場(chǎng)景中優(yōu)化多達(dá) 50 個(gè)單獨(dú)的對(duì)象,具有 5Hz 地圖更新的極其高效的訓(xùn)練速度。與之前的神經(jīng)場(chǎng) SLAM 系統(tǒng)相比,我們通過(guò)實(shí)驗(yàn)證明了場(chǎng)景級(jí)和對(duì)象級(jí)重建質(zhì)量的顯著提高。

每個(gè)對(duì)象都由一個(gè)單獨(dú)的 MLP 神經(jīng)場(chǎng)模型表示,所有對(duì)象都通過(guò)矢量化訓(xùn)練并行優(yōu)化。我們不使用 3D 形狀先驗(yàn),但 MLP 表示鼓勵(lì)對(duì)象重建是無(wú)懈可擊的和完整的,即使對(duì)象在輸入圖像中被部分觀察到或被嚴(yán)重遮擋。例如,在 Replica 的這個(gè)例子中,請(qǐng)參見(jiàn)相互遮擋的扶手椅、沙發(fā)和墊子的單獨(dú)重建。

1.介紹

對(duì)于機(jī)器人和其他交互式視覺(jué)應(yīng)用程序,對(duì)象級(jí)模型在語(yǔ)義上可以說(shuō)是最佳的,場(chǎng)景實(shí)體以分離的、可組合的方式表示,而且還能有效地將資源集中在環(huán)境中的重要內(nèi)容上

構(gòu)建對(duì)象級(jí)建圖系統(tǒng)的關(guān)鍵問(wèn)題是,為了對(duì)場(chǎng)景中的對(duì)象進(jìn)行分割、分類和重建,需要了解什么級(jí)別的先驗(yàn)信息。如果沒(méi)有可用的 3D 物體先驗(yàn),那么通常只能重建物體的直接觀察部分,從而導(dǎo)致孔洞和缺失部分 [4, 46]。先驗(yàn)對(duì)象信息,如 CAD 模型或類別級(jí)形狀空間模型,可以從局部視圖估計(jì)完整的對(duì)象形狀,但僅限于這些模型可用的場(chǎng)景中的對(duì)象子集

在本文中,我們提出了一種新方法,適用于沒(méi)有可用的 3D 先驗(yàn)但仍然經(jīng)常在逼真的實(shí)時(shí)場(chǎng)景掃描中啟用水密對(duì)象重建的情況。我們的系統(tǒng) vMAP 建立在神經(jīng)場(chǎng)作為實(shí)時(shí)場(chǎng)景表示 [31] 顯示的吸引人的屬性的基礎(chǔ)上,具有高效和完整的形狀表示,但現(xiàn)在重建每個(gè)對(duì)象的單獨(dú)微型 MLP 模型。我們工作的關(guān)鍵技術(shù)貢獻(xiàn)是表明大量獨(dú)立的 MLP 對(duì)象模型可以在實(shí)時(shí)操作期間通過(guò)矢量化訓(xùn)練在單個(gè) GPU 上同時(shí)有效地優(yōu)化

我們表明,與在整個(gè)場(chǎng)景的單個(gè)神經(jīng)場(chǎng)模型中使用相似數(shù)量的權(quán)重相比,我們可以通過(guò)單獨(dú)建模對(duì)象來(lái)實(shí)現(xiàn)更加準(zhǔn)確和完整的場(chǎng)景重建。我們的實(shí)時(shí)系統(tǒng)在計(jì)算和內(nèi)存方面都非常高效,并且我們展示了具有多達(dá) 50 個(gè)對(duì)象的場(chǎng)景可以在多個(gè)獨(dú)立對(duì)象網(wǎng)絡(luò)中以每個(gè)對(duì)象 40KB 的學(xué)習(xí)參數(shù)進(jìn)行建圖

我們還展示了我們的分離對(duì)象表示的靈活性,可以使用新的對(duì)象配置重新組合場(chǎng)景。對(duì)模擬和真實(shí)世界的數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn),展示了最先進(jìn)的場(chǎng)景級(jí)和對(duì)象級(jí)重建性能

2.相關(guān)工作

這項(xiàng)工作是在建立實(shí)時(shí)場(chǎng)景表示的一系列努力之后進(jìn)行的,這些實(shí)時(shí)場(chǎng)景表示被分解為明確的剛性對(duì)象,并有望實(shí)現(xiàn)靈活高效的場(chǎng)景表示,甚至可以表示不斷變化的場(chǎng)景。不同的系統(tǒng)采用不同類型的表示和先驗(yàn)知識(shí)水平,從 CAD 模型 [28],通過(guò)類別級(jí)形狀模型 [10,11,32,36] 到?jīng)]有先驗(yàn)形狀知識(shí),盡管在這種情況下只有可見(jiàn)部分物體可以被重建 [15, 27, 38]

神經(jīng)場(chǎng) SLAM

神經(jīng)場(chǎng)最近被廣泛用作整個(gè)場(chǎng)景的高效、準(zhǔn)確和靈活的表示 [16、17、19、22]。為了將這些表示應(yīng)用于實(shí)時(shí) SLAM 系統(tǒng),iMAP [31] 首次展示了一個(gè)簡(jiǎn)單的 MLP 網(wǎng)絡(luò),借助 RGB-D 傳感器的深度測(cè)量進(jìn)行增量訓(xùn)練,可以實(shí)時(shí)表示房間尺度的 3D 場(chǎng)景。時(shí)間。iMAP 的一些最有趣的特性是它傾向于產(chǎn)生無(wú)懈可擊的重建,甚至經(jīng)常似是而非地完成物體未被觀察到的背面。當(dāng)添加語(yǔ)義輸出通道時(shí),神經(jīng)場(chǎng)的這些相干特性尤其顯露出來(lái),如在 SemanticNeRF [43] 和 iLabel [44] 中,并且被發(fā)現(xiàn)繼承了相干性。為了使隱式表示更具可擴(kuò)展性和效率,一組隱式 SLAM 系統(tǒng) [25、35、40、45、48] 將神經(jīng)場(chǎng)與傳統(tǒng)的體積表示融合在一起。

帶有神經(jīng)場(chǎng)的對(duì)象表示

然而,從這些神經(jīng)場(chǎng)方法中獲取單個(gè)對(duì)象表示很困難,因?yàn)榫W(wǎng)絡(luò)參數(shù)與特定場(chǎng)景區(qū)域之間的對(duì)應(yīng)關(guān)系很復(fù)雜且難以確定。為了解決這個(gè)問(wèn)題,DeRF [23] 在空間上分解了一個(gè)場(chǎng)景,并將較小的網(wǎng)絡(luò)專用于每個(gè)分解的部分。同樣,Kilo-NeRF [24] 將場(chǎng)景分成數(shù)千個(gè)體積部分,每個(gè)部分由一個(gè)微型 MLP 表示,并與自定義 CUDA 內(nèi)核并行訓(xùn)練它們以加速 NeRF。與 KiloNeRF 不同,vMAP 將場(chǎng)景分解為具有語(yǔ)義意義的對(duì)象。

為了表示多個(gè)對(duì)象,ObjectNeRF [39] 和 ObjSDF [37] 將預(yù)先計(jì)算的實(shí)例掩碼作為可學(xué)習(xí)對(duì)象激活代碼上的附加輸入和條件對(duì)象表示。但是這些方法仍然是離線訓(xùn)練的,并且將對(duì)象表示與主場(chǎng)景網(wǎng)絡(luò)糾纏在一起,因此它們需要在訓(xùn)練過(guò)程中使用所有對(duì)象代碼優(yōu)化網(wǎng)絡(luò)權(quán)重,并推斷整個(gè)網(wǎng)絡(luò)以獲得所需對(duì)象的形狀。這與單獨(dú)建模對(duì)象的 vMAP 形成對(duì)比,并且能夠停止和恢復(fù)對(duì)任何對(duì)象的訓(xùn)練而沒(méi)有任何對(duì)象間干擾

最近與我們的工作最相似的工作是使用神經(jīng)域 MLP 的吸引人的特性來(lái)表示單個(gè)對(duì)象。[5] 中的分析明確評(píng)估了使用過(guò)擬合神經(jīng)隱式網(wǎng)絡(luò)作為圖形的 3D 形狀表示,考慮到它們應(yīng)該被認(rèn)真對(duì)待。[1] 中的工作進(jìn)一步推進(jìn)了這一分析,顯示了對(duì)象表示如何受到不同觀察條件的影響,盡管使用混合 Instant NGP 而不是單一的 MLP 表示,因此尚不清楚是否會(huì)丟失某些對(duì)象的一致性屬性。最后,CodeNeRF 系統(tǒng) [9] 訓(xùn)練了一個(gè)以可學(xué)習(xí)對(duì)象代碼為條件的 NeRF,再次證明了神經(jīng)場(chǎng)的吸引人的屬性來(lái)表示單個(gè)對(duì)象

我們?cè)谡撐闹幸赃@項(xiàng)工作為基礎(chǔ),但首次表明構(gòu)成整個(gè)場(chǎng)景的許多單獨(dú)的神經(jīng)場(chǎng)模型可以在實(shí)時(shí)系統(tǒng)中同時(shí)訓(xùn)練,從而準(zhǔn)確有效地表示多對(duì)象場(chǎng)景

3. vMAP:具有矢量化訓(xùn)練的高效對(duì)象建圖系統(tǒng)

3.1.系統(tǒng)總覽

我們首先介紹了我們通過(guò)高效矢量化訓(xùn)練進(jìn)行對(duì)象級(jí)建圖的詳細(xì)設(shè)計(jì)(第 3.2 節(jié)),然后解釋了我們改進(jìn)的像素采樣和表面渲染訓(xùn)練策略(第 3.3 節(jié))。最后,我們展示了如何使用這些學(xué)習(xí)到的對(duì)象模型來(lái)重構(gòu)和渲染新場(chǎng)景(第 3.4 節(jié))。我們的訓(xùn)練和渲染管道的概述如圖 2 所示

3.2.矢量化對(duì)象級(jí)建圖

對(duì)象初始化和關(guān)聯(lián)

首先,每個(gè)幀都與密集標(biāo)記的對(duì)象掩碼相關(guān)聯(lián)。這些對(duì)象掩碼要么直接在數(shù)據(jù)集中提供,要么使用現(xiàn)成的 2D 實(shí)例分割網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。由于那些預(yù)測(cè)的對(duì)象掩碼在不同幀之間沒(méi)有時(shí)間一致性,我們基于兩個(gè)標(biāo)準(zhǔn)在前一幀和當(dāng)前實(shí)時(shí)幀之間執(zhí)行對(duì)象關(guān)聯(lián):i)語(yǔ)義一致性:當(dāng)前幀中的對(duì)象被預(yù)測(cè)為與前一幀相同的語(yǔ)義類, ii) 空間一致性:當(dāng)前幀中的對(duì)象在空間上與先前幀中的對(duì)象接近,這是通過(guò)它們的 3D 對(duì)象邊界的平均 IoU 來(lái)衡量的。當(dāng)滿足這兩個(gè)標(biāo)準(zhǔn)時(shí),我們假設(shè)它們是相同的對(duì)象實(shí)例并用相同的對(duì)象模型表示它們。否則,它們是不同的對(duì)象實(shí)例,我們初始化一個(gè)新的對(duì)象模型并將其附加到模型堆棧

e94eaef8-0b07-11ee-962d-dac502259ad0.png

圖 2. vMAP 訓(xùn)練和渲染流水線概覽

對(duì)于幀中的每個(gè)對(duì)象,我們估計(jì)其 3D 對(duì)象受其 3D 點(diǎn)云的約束,并通過(guò)其深度圖和相機(jī)姿勢(shì)進(jìn)行參數(shù)化。相機(jī)跟蹤由現(xiàn)成的跟蹤系統(tǒng)在外部提供,我們發(fā)現(xiàn)與聯(lián)合優(yōu)化位姿和幾何形狀相比,它更加準(zhǔn)確和穩(wěn)健。如果我們?cè)谛聨袡z測(cè)到相同的對(duì)象實(shí)例,我們將其 3D 點(diǎn)云從先前幀合并到當(dāng)前幀并重新估計(jì)其 3D 對(duì)象邊界。因此,這些對(duì)象邊界會(huì)隨著更多的觀察而動(dòng)態(tài)更新和細(xì)化。

對(duì)象監(jiān)督

我們僅對(duì) 2D 對(duì)象邊界框內(nèi)的像素應(yīng)用對(duì)象級(jí)監(jiān)督,以實(shí)現(xiàn)最大的訓(xùn)練效率。對(duì)于對(duì)象掩碼內(nèi)的那些像素,我們鼓勵(lì)對(duì)象輻射場(chǎng)被占用,并用深度和顏色損失來(lái)監(jiān)督它們。否則我們鼓勵(lì)物體輻射場(chǎng)為空

每個(gè)對(duì)象實(shí)例從其自己獨(dú)立的關(guān)鍵幀緩沖區(qū)中采樣訓(xùn)練像素。因此,我們可以靈活地停止或恢復(fù)任何對(duì)象的訓(xùn)練,而對(duì)象之間沒(méi)有訓(xùn)練干擾。

Vectorised Training用多個(gè)小型網(wǎng)絡(luò)表示神經(jīng)場(chǎng)可以導(dǎo)致有效的訓(xùn)練,如先前的工作 [24] 所示。在 vMAP 中,所有對(duì)象模型都具有相同的設(shè)計(jì),除了我們用稍大的網(wǎng)絡(luò)表示的背景對(duì)象。因此,我們能夠利用 PyTorch [8] 中高度優(yōu)化的矢量化操作,將這些小對(duì)象模型堆疊在一起進(jìn)行矢量化訓(xùn)練。由于多個(gè)對(duì)象模型是同時(shí)批處理和訓(xùn)練的,而不是按順序進(jìn)行的,我們優(yōu)化了可用 GPU 資源的使用。我們表明,矢量化訓(xùn)練是系統(tǒng)的基本設(shè)計(jì)元素,可以顯著提高訓(xùn)練速度,這將在第 4.3 節(jié)中進(jìn)一步討論

3.3.神經(jīng)隱式建圖

深度引導(dǎo)采樣

僅在 RGB 數(shù)據(jù)上訓(xùn)練的神經(jīng)場(chǎng)不能保證建模準(zhǔn)確的對(duì)象幾何形狀,因?yàn)樗鼈兪轻槍?duì)外觀而不是幾何形狀進(jìn)行優(yōu)化的。為了獲得幾何上更精確的對(duì)象模型,我們受益于 RGB-D 傳感器提供的深度圖,為學(xué)習(xí) 3D 體積的密度場(chǎng)提供了強(qiáng)大的先驗(yàn)知識(shí)。具體來(lái)說(shuō),我們沿著每條射線對(duì) Ns 和 Nc 點(diǎn)進(jìn)行采樣,其中 Ns 點(diǎn)的采樣具有以表面 ts 為中心的正態(tài)分布(來(lái)自深度圖),具有較小的 dσ 方差,Nc 點(diǎn)在相機(jī) tn(近邊界)和表面 ts,采用分層采樣方法。當(dāng)深度測(cè)量無(wú)效時(shí),表面 ts 將替換為遠(yuǎn)界 tf 。在數(shù)學(xué)上,我們有:

e95b324a-0b07-11ee-962d-dac502259ad0.png

我們選擇dσ = 3厘米,這在我們的實(shí)施中效果很好。我們觀察到,在靠近表面訓(xùn)練更多的點(diǎn)有助于引導(dǎo)物體模型迅速專注于準(zhǔn)確表示物體幾何。

由于我們更關(guān)注3D表面重建而不是2D渲染,因此在網(wǎng)絡(luò)輸入中省略了視角方向,并且使用二進(jìn)制指示器(沒(méi)有透明物體)來(lái)建模物體的可見(jiàn)性。與UniSURF [21]具有類似的動(dòng)機(jī),我們將3D點(diǎn)xi的占用概率參數(shù)化為oθ (xi) → [0, 1],其中oθ是一個(gè)連續(xù)的占用場(chǎng)。因此,沿射線r的點(diǎn)xi的終止概率變?yōu)門i = o (xi) Qj

e96d2f40-0b07-11ee-962d-dac502259ad0.png

訓(xùn)練目標(biāo) 對(duì)于每個(gè)對(duì)象k,我們僅在該對(duì)象的2D邊界框內(nèi)采樣訓(xùn)練像素,用Rk表示,并且僅針對(duì)其2D對(duì)象掩碼內(nèi)的像素優(yōu)化深度和顏色,用Mk表示。注意,Mk ? Rk始終成立。對(duì)象k的深度、顏色和占用損失定義如下:

e97e4fbe-0b07-11ee-962d-dac502259ad0.png

然后,整體的訓(xùn)練目標(biāo)對(duì)所有K個(gè)對(duì)象進(jìn)行損失累積:

e995c950-0b07-11ee-962d-dac502259ad0.png

我們選擇損失權(quán)重λ1 = 5和λ2 = 10,我們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn)這些權(quán)重效果很好。

3.4. 組合式場(chǎng)景渲染

由于vMAP在純粹的解耦表示空間中表示對(duì)象,我們可以通過(guò)在其估計(jì)的3D對(duì)象邊界內(nèi)查詢來(lái)獲得每個(gè)3D對(duì)象,并輕松地進(jìn)行操作。對(duì)于2D新視圖合成,我們使用Ray-Box Intersection算法[14]來(lái)計(jì)算每個(gè)對(duì)象的近距離和遠(yuǎn)距離邊界,然后在每條射線上對(duì)渲染深度進(jìn)行排序,實(shí)現(xiàn)對(duì)遮擋的場(chǎng)景級(jí)渲染。這種解耦表示還打開(kāi)了其他類型的細(xì)粒度對(duì)象級(jí)操作,例如通過(guò)在解耦的預(yù)訓(xùn)練特征場(chǎng)上進(jìn)行條件變形物體的形狀或紋理[20, 42],這被視為一個(gè)有趣的未來(lái)方向。

4.實(shí)驗(yàn)

我們對(duì)各種不同的數(shù)據(jù)集對(duì)vMAP進(jìn)行了全面評(píng)估,其中包括模擬和真實(shí)世界的序列,有的有地面真實(shí)物體的掩碼和姿態(tài),有的沒(méi)有。對(duì)于所有數(shù)據(jù)集,我們?cè)?D和3D場(chǎng)景級(jí)別和對(duì)象級(jí)別的渲染上定性地將我們的系統(tǒng)與之前最先進(jìn)的SLAM框架進(jìn)行了比較。我們還在具有地面真實(shí)網(wǎng)格的數(shù)據(jù)集中進(jìn)行了定量比較。更多結(jié)果請(qǐng)參閱我們附帶的補(bǔ)充材料。

4.1. 實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集 我們?cè)赗eplica [29]、ScanNet [3]和TUM RGB-D [6]上進(jìn)行了評(píng)估。每個(gè)數(shù)據(jù)集包含具有不同質(zhì)量的對(duì)象掩碼、深度和姿態(tài)測(cè)量的序列。此外,我們還展示了vMAP在由Azure Kinect RGB-D相機(jī)記錄的復(fù)雜真實(shí)世界中的性能。這些數(shù)據(jù)集的概述如表1所示。

e9aa7468-0b07-11ee-962d-dac502259ad0.png

表1. 我們?cè)u(píng)估的數(shù)據(jù)集概述

具有完美地面真實(shí)信息的數(shù)據(jù)集代表了我們系統(tǒng)的上限性能。我們預(yù)期vMAP在真實(shí)世界環(huán)境中的性能可以通過(guò)與更好的實(shí)例分割和姿態(tài)估計(jì)框架相結(jié)合而進(jìn)一步提高。

實(shí)施細(xì)節(jié) 我們?cè)谝慌_(tái)桌面PC上進(jìn)行所有實(shí)驗(yàn),配備3.60 GHz的i7-11700K CPU和一張Nvidia RTX 3090 GPU。我們選擇實(shí)例分割檢測(cè)器為Detic [47],在開(kāi)放詞匯LVIS數(shù)據(jù)集 [7]上進(jìn)行預(yù)訓(xùn)練,該數(shù)據(jù)集包含1000多個(gè)對(duì)象類別。我們選擇姿態(tài)估計(jì)框架為ORB-SLAM3 [2],因?yàn)樗哂锌焖俸蜏?zhǔn)確的跟蹤性能。我們使用來(lái)自O(shè)RB-SLAM3的最新估計(jì)不斷更新關(guān)鍵幀的姿態(tài)。

我們對(duì)所有數(shù)據(jù)集應(yīng)用了相同的超參數(shù)集。我們的對(duì)象和背景模型都使用了4層MLP,每層的隱藏大小分別為32(對(duì)象)和128(背景)。對(duì)于對(duì)象/背景,我們選擇每25/50幀一個(gè)關(guān)鍵幀,每個(gè)訓(xùn)練步驟使用120/1200條射線,每條射線有10個(gè)點(diǎn)。場(chǎng)景中的對(duì)象數(shù)量通常在20到70個(gè)之間,其中對(duì)象數(shù)量最多的Replica和ScanNet場(chǎng)景中,平均每個(gè)場(chǎng)景有50個(gè)對(duì)象。

指標(biāo)

按照之前的研究[31, 48]的慣例,我們采用準(zhǔn)確度(Accuracy)、完整度(Completion)和完整度比率(Completion Ratio)作為3D場(chǎng)景級(jí)別重建的度量指標(biāo)。此外,我們注意到這樣的場(chǎng)景級(jí)別指標(biāo)在重建墻壁和地板等大型物體方面存在嚴(yán)重偏差。因此,我們還提供了對(duì)象級(jí)別的這些指標(biāo),通過(guò)對(duì)每個(gè)場(chǎng)景中所有對(duì)象的指標(biāo)進(jìn)行平均計(jì)算。

e9cb37f2-0b07-11ee-962d-dac502259ad0.pnge9e32312-0b07-11ee-962d-dac502259ad0.pngea0f9b4a-0b07-11ee-962d-dac502259ad0.png

圖4. 使用vMAP與TSDF-Fusion和ObjSDF進(jìn)行對(duì)象重建的可視化比較。請(qǐng)注意,來(lái)自O(shè)bjSDF的所有對(duì)象重建都需要更長(zhǎng)的離線訓(xùn)練時(shí)間。ObjSDF提供的所有對(duì)象網(wǎng)格由原始作者提供。

ea18feba-0b07-11ee-962d-dac502259ad0.png

圖5. 在選擇的ScanNet序列中,展示了NICE-SLAM?(左)和vMAP(右)的場(chǎng)景重建可視化結(jié)果。對(duì)于感興趣的區(qū)域進(jìn)行了放大顯示。NICE-SLAM?使用了地面真實(shí)姿態(tài)進(jìn)行重新訓(xùn)練。

4.2. 場(chǎng)景和物體重建評(píng)估

在Replica數(shù)據(jù)集上的結(jié)果

我們?cè)?個(gè)Replica場(chǎng)景上進(jìn)行了實(shí)驗(yàn),使用[31]提供的渲染軌跡,每個(gè)場(chǎng)景包含2000個(gè)RGB-D幀。表2顯示了這些Replica室內(nèi)序列中的平均定量重建結(jié)果。對(duì)于場(chǎng)景級(jí)別的重建,我們與TSDF-Fusion [46]、iMAP [31]和NICE-SLAM [48]進(jìn)行了比較。為了隔離重建效果,我們還提供了這些基線方法在使用地面真實(shí)姿態(tài)重新訓(xùn)練后的結(jié)果(標(biāo)記為?),以便進(jìn)行公平比較。具體而言,iMAP?被實(shí)現(xiàn)為vMAP的一種特殊情況,將整個(gè)場(chǎng)景視為一個(gè)物體實(shí)例。對(duì)于物體級(jí)別的重建,我們比較了在使用地面真實(shí)姿態(tài)進(jìn)行訓(xùn)練的基線方法。

vMAP通過(guò)物體級(jí)別的表示具有顯著的優(yōu)勢(shì),能夠重建微小物體和具有細(xì)節(jié)的物體。值得注意的是,對(duì)于物體級(jí)別的完整性,vMAP相比于iMAP和NICE-SLAM實(shí)現(xiàn)了50-70%的改進(jìn)。圖3展示了4個(gè)選定的Replica序列的場(chǎng)景重建結(jié)果,其中用彩色框標(biāo)出了感興趣的區(qū)域。關(guān)于2D新視角渲染的定量結(jié)果將在補(bǔ)充材料中提供。

在ScanNet上的結(jié)果

為了在更具挑戰(zhàn)性的環(huán)境中進(jìn)行評(píng)估,我們?cè)赟canNet [3]上進(jìn)行了實(shí)驗(yàn),該數(shù)據(jù)集由真實(shí)場(chǎng)景組成,具有更多噪聲的地面真實(shí)深度圖和物體掩碼。我們選擇了ObjSDF [37]選擇的一段ScanNet序列,并與TSDF-Fusion和ObjSDF進(jìn)行了物體級(jí)別的重建比較,與使用地面真實(shí)姿態(tài)重新訓(xùn)練的NICE-SLAM進(jìn)行了場(chǎng)景級(jí)別的重建比較。與ObjSDF不同,vMAP和TSDF-Fusion都是在具有深度信息的在線環(huán)境中運(yùn)行,而不是像ObjSDF那樣從預(yù)先選擇的沒(méi)有深度信息的圖像進(jìn)行更長(zhǎng)時(shí)間的離線訓(xùn)練。如圖4所示,我們可以看到vMAP生成的物體幾何結(jié)構(gòu)比TSDF-Fusion更連貫;而比ObjSDF具有更細(xì)致的細(xì)節(jié),盡管訓(xùn)練時(shí)間要短得多。并且一致地,如圖5所示,與NICE-SLAM相比,我們可以看到vMAP生成的物體邊界和紋理更加清晰。

在TUM RGB-D上的結(jié)果

我們?cè)谡鎸?shí)世界中捕獲的TUM RGB-D序列上進(jìn)行了評(píng)估,使用了一個(gè)現(xiàn)成的預(yù)訓(xùn)練實(shí)例分割網(wǎng)絡(luò)[47]預(yù)測(cè)的物體掩碼和由ORB-SLAM3[2]估計(jì)的位姿。由于我們的物體檢測(cè)器沒(méi)有時(shí)空一致性,我們發(fā)現(xiàn)同一個(gè)物體偶爾會(huì)被檢測(cè)為兩個(gè)不同的實(shí)例,這導(dǎo)致了一些重構(gòu)偽影。例如,圖6中顯示的物體“globe”在某些幀中也被檢測(cè)為“balloon”,導(dǎo)致最終物體重構(gòu)中的“分割”偽影??傮w而言,與TSDF-Fusion相比,vMAP仍然可以對(duì)場(chǎng)景中大多數(shù)物體進(jìn)行更連貫的重構(gòu),并具有逼真的孔洞填充能力。然而,我們承認(rèn),由于缺乏普遍的3D先驗(yàn)知識(shí),我們的系統(tǒng)無(wú)法完成完整的視野之外區(qū)域(例如椅子的背部)的重構(gòu)。

雖然我們的工作更注重地圖繪制性能而不是位姿估計(jì),但我們也按照[31,48]報(bào)告了Tab. 3中的ATE RMSE,通過(guò)聯(lián)合優(yōu)化相機(jī)位姿和地圖。我們可以觀察到,由于重構(gòu)和跟蹤質(zhì)量通常高度相互依賴,vMAP實(shí)現(xiàn)了卓越的性能。然而,與ORB-SLAM相比存在明顯的性能差距。因此,我們直接選擇ORB-SLAM作為我們的外部跟蹤系統(tǒng),這導(dǎo)致了更快的訓(xùn)練速度、更清晰的實(shí)現(xiàn)和更高的跟蹤質(zhì)量。

對(duì)于實(shí)時(shí)運(yùn)行的Azure Kinect RGB-D相機(jī),在桌面場(chǎng)景上展示了vMAP的重構(gòu)結(jié)果。如圖7所示,vMAP能夠生成來(lái)自不同類別的一系列逼真的、無(wú)缺陷的物體網(wǎng)格。

4.3. 性能分析

在本節(jié)中,我們比較了針對(duì)vMAP系統(tǒng)的不同訓(xùn)練策略和架構(gòu)設(shè)計(jì)選擇。為了簡(jiǎn)單起見(jiàn),所有實(shí)驗(yàn)都在Replica Room-0序列上進(jìn)行,使用我們的默認(rèn)訓(xùn)練超參數(shù)。

內(nèi)存和運(yùn)行時(shí)間

我們?cè)诒?和圖9中將vMAP與iMAP和NICE-SLAM進(jìn)行了內(nèi)存使用和運(yùn)行時(shí)間的比較,所有方法都是使用了地面真實(shí)姿態(tài)進(jìn)行訓(xùn)練,并使用各自方法中列出的默認(rèn)訓(xùn)練超參數(shù),以進(jìn)行公平比較。具體而言,我們報(bào)告了整個(gè)序列的運(yùn)行時(shí)間和每幀訓(xùn)練的建圖時(shí)間,使用完全相同的硬件條件。我們可以看到,vMAP具有高度的內(nèi)存效率,參數(shù)數(shù)量少于1M。我們想強(qiáng)調(diào)的是,vMAP在重構(gòu)質(zhì)量上取得了更好的表現(xiàn),并且運(yùn)行速度明顯快于iMAP和NICE-SLAM,分別提高了1.5倍和4倍的訓(xùn)練速度(約5Hz)。

ea27f870-0b07-11ee-962d-dac502259ad0.png

圖 8. 與使用 for 循環(huán)的標(biāo)準(zhǔn)順序操作相比,矢量化操作能夠?qū)崿F(xiàn)極快的訓(xùn)練速度。

向量化與順序訓(xùn)練

我們通過(guò)使用向量化和順序操作(for循環(huán))來(lái)對(duì)訓(xùn)練速度進(jìn)行了分析,針對(duì)不同數(shù)量的對(duì)象和不同物體模型的大小。在圖8中,我們可以看到,向量化訓(xùn)練大大提高了優(yōu)化速度,尤其是當(dāng)我們有大量物體時(shí)。而且,使用向量化訓(xùn)練時(shí),即使在訓(xùn)練多達(dá)200個(gè)物體時(shí),每個(gè)優(yōu)化步驟也不超過(guò)15毫秒。此外,向量化訓(xùn)練在各種模型大小范圍內(nèi)也是穩(wěn)定的,這表明如果需要,我們可以訓(xùn)練更大尺寸的物體模型,而額外的訓(xùn)練時(shí)間非常小。如預(yù)期的那樣,當(dāng)我們達(dá)到硬件的內(nèi)存限制時(shí),向量化訓(xùn)練和for循環(huán)將最終具有相似的訓(xùn)練速度。

為了并行訓(xùn)練多個(gè)模型,我們最初嘗試的方法是為每個(gè)對(duì)象生成一個(gè)進(jìn)程。然而,由于每個(gè)進(jìn)程的CUDA內(nèi)存開(kāi)銷,我們只能生成非常有限數(shù)量的進(jìn)程,這嚴(yán)重限制了對(duì)象的數(shù)量。

對(duì)象模型容量

由于向量化訓(xùn)練在對(duì)象模型設(shè)計(jì)方面對(duì)訓(xùn)練速度幾乎沒(méi)有影響,我們還研究了不同對(duì)象模型大小對(duì)對(duì)象級(jí)重建質(zhì)量的影響。我們通過(guò)改變每個(gè)MLP層的隱藏層大小來(lái)嘗試不同的對(duì)象模型大小。在圖9中,我們可以看到從隱藏層大小為16開(kāi)始,對(duì)象級(jí)性能開(kāi)始飽和,進(jìn)一步增加模型大小幾乎沒(méi)有改善或沒(méi)有改善。這表明對(duì)象級(jí)表示具有高度可壓縮性,并且可以通過(guò)很少的參數(shù)高效準(zhǔn)確地參數(shù)化。

ea3ead72-0b07-11ee-962d-dac502259ad0.png

圖9. 對(duì)象級(jí)重建與模型參數(shù)(由網(wǎng)絡(luò)隱藏大小表示)的比較。vMAP比iMAP更緊湊,性能從隱藏大小為16開(kāi)始飽和。

堆疊的MLP vs. 共享的MLP

除了通過(guò)單個(gè)獨(dú)立的MLP表示每個(gè)對(duì)象之外,我們還探索了共享MLP的設(shè)計(jì),將多對(duì)象建圖視為多任務(wù)學(xué)習(xí)問(wèn)題[26, 33]。在這種設(shè)計(jì)中,每個(gè)對(duì)象還與一個(gè)可學(xué)習(xí)的潛在編碼相關(guān)聯(lián),這個(gè)潛在編碼被視為網(wǎng)絡(luò)的條件輸入,并與網(wǎng)絡(luò)權(quán)重一起進(jìn)行聯(lián)合優(yōu)化。盡管我們嘗試了多個(gè)多任務(wù)學(xué)習(xí)體系結(jié)構(gòu)[12, 18],但早期實(shí)驗(yàn)(在圖9中標(biāo)記為vMAP-S)顯示,這種共享的MLP設(shè)計(jì)在重建質(zhì)量上略有下降,并且與堆疊的MLP相比,沒(méi)有明顯的訓(xùn)練速度改進(jìn),尤其是在采用向量化訓(xùn)練的情況下,我們發(fā)現(xiàn)共享的MLP設(shè)計(jì)可能導(dǎo)致不良的訓(xùn)練性質(zhì):i)由于網(wǎng)絡(luò)權(quán)重和所有對(duì)象的潛在編碼在共享的表示空間中交織在一起,共享的MLP需要與所有對(duì)象的潛在編碼一起進(jìn)行優(yōu)化。ii)共享的MLP容量在訓(xùn)練過(guò)程中是固定的,因此表示空間可能不足以處理日益增加的對(duì)象數(shù)量。這凸顯了解耦的對(duì)象表示空間的優(yōu)勢(shì),這是vMAP系統(tǒng)的一個(gè)關(guān)鍵設(shè)計(jì)元素。

5.結(jié)論

我們提出了vMAP,一個(gè)實(shí)時(shí)的基于對(duì)象級(jí)別的地圖生成系統(tǒng),采用簡(jiǎn)單而緊湊的神經(jīng)隱式表示。通過(guò)將3D場(chǎng)景分解為一批小型獨(dú)立MLP表示的有意義實(shí)例,該系統(tǒng)以高效而靈活的方式建模3D場(chǎng)景,實(shí)現(xiàn)場(chǎng)景重組、獨(dú)立跟蹤和感興趣對(duì)象的持續(xù)更新。除了更準(zhǔn)確、更緊湊的以對(duì)象為中心的3D重建,我們的系統(tǒng)還能夠預(yù)測(cè)每個(gè)對(duì)象的合理閉合表面,即使在部分遮擋的情況下也能如此。

局限性和未來(lái)工作

我們當(dāng)前的系統(tǒng)依賴于現(xiàn)成的實(shí)例掩碼檢測(cè)器,這些實(shí)例掩碼不一定具有時(shí)空一致性。雖然通過(guò)數(shù)據(jù)關(guān)聯(lián)和多視圖監(jiān)督部分減輕了歧義,但合理的全局約束將更好地解決這個(gè)問(wèn)題。由于對(duì)象是獨(dú)立建模的,動(dòng)態(tài)對(duì)象可以持續(xù)跟蹤和重建,以支持下游任務(wù),例如機(jī)器人操控。為了將我們的系統(tǒng)擴(kuò)展為單目稠密地圖生成系統(tǒng),可以進(jìn)一步整合深度估計(jì)網(wǎng)絡(luò)或更高效的神經(jīng)渲染方法。




審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2551

    文章

    51099

    瀏覽量

    753606
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    211

    文章

    28418

    瀏覽量

    207102
  • RGB
    RGB
    +關(guān)注

    關(guān)注

    4

    文章

    798

    瀏覽量

    58510
  • CAD
    CAD
    +關(guān)注

    關(guān)注

    17

    文章

    1092

    瀏覽量

    72504
  • SLAM
    +關(guān)注

    關(guān)注

    23

    文章

    424

    瀏覽量

    31833

原文標(biāo)題:vMAP:用于神經(jīng)場(chǎng) SLAM 的矢量化對(duì)象建圖

文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    讓機(jī)器人完美SLAM 3.0到底是何方神圣?

    引擎,讓機(jī)器人在復(fù)雜、大面積的場(chǎng)景下也能輕松應(yīng)對(duì),穩(wěn)定發(fā)揮,完成定位導(dǎo)航任務(wù)?!鹘y(tǒng)SLAMSLAM 3.0的對(duì)比:    -
    發(fā)表于 01-21 10:57

    什么是CAD矢量化?

    大。色點(diǎn)沒(méi)有具體的含義,只是代表其所在的位置的顏色。什么是CAD矢量化矢量圖?而矢量圖的意思就是用數(shù)據(jù),像是坐標(biāo)、方向向量,來(lái)表示圖形,并不會(huì)因?yàn)閳D形的放大而改變文件的尺寸,就算是由大小的改變,也只是
    發(fā)表于 03-06 17:02

    使用SVE對(duì)HACCmk進(jìn)行矢量化的案例研究

    是因?yàn)樗J(rèn)為它無(wú)利可,要么是沒(méi)有看到機(jī)會(huì)。但是,重寫循環(huán)以在源代碼中手動(dòng)顯式執(zhí)行if 轉(zhuǎn)換可以誘使編譯器使用高級(jí) SIMD 對(duì)其進(jìn)行矢量化。這里if和continue語(yǔ)句消失了,值被添加到 lax
    發(fā)表于 11-08 11:50

    RealView編譯工具NEON矢量化編譯器指南

    RVCT提供了armcc--Vectorize,這是ARM編譯器的一個(gè)矢量化版本,它以帶有neon單元的ARM處理器為目標(biāo),比如Cortex-A8。 向量化意味著編譯器直接從C或C++代碼生成霓虹燈
    發(fā)表于 08-12 06:22

    一種優(yōu)化的鞋樣圖像矢量化方法

    針對(duì)制鞋業(yè)中鞋樣的錄入問(wèn)題,提出了一種實(shí)現(xiàn)從圖像格式到圖形格式轉(zhuǎn)化的圖像矢量化方法。并且形成的圖形文件可根據(jù)不同鞋業(yè)CAD 軟件的要求而存儲(chǔ)成相應(yīng)的格式。該方法還
    發(fā)表于 08-13 15:24 ?18次下載

    MAPGIS矢量化技巧步驟詳解

    利用MapGis進(jìn)行屏幕跟蹤矢量化 > 1.利用MAPGIS矢量化作圖。
    發(fā)表于 10-21 15:45 ?0次下載

    阿郎“零接觸矢量化”技術(shù)實(shí)現(xiàn)寬帶服務(wù)提速

    10月17日,阿爾卡特朗訊日前推出“零接觸矢量化”創(chuàng)新技術(shù)。依托這一全新VDSL2矢量化技術(shù),能經(jīng)濟(jì)高效地為千家萬(wàn)戶實(shí)現(xiàn)寬帶服務(wù)提速。
    發(fā)表于 10-17 11:26 ?1083次閱讀

    英特爾Advisor的矢量化工作流程

    本入門視頻介紹了英特爾?Advisor的矢量化工作流程。
    的頭像 發(fā)表于 11-01 06:27 ?3892次閱讀

    第2部分:高級(jí)代碼矢量化和優(yōu)化

    從Serial到Awesome,第2部分:高級(jí)代碼矢量化和優(yōu)化
    的頭像 發(fā)表于 05-31 11:39 ?2218次閱讀

    使用線程和矢量化將串行代碼轉(zhuǎn)換為并行

    軟件必須是并行和矢量化的,以充分利用今天和明天的硬件。但并非所有線程或矢量化設(shè)計(jì)都值得。工具可以非常有助于確定可以(并且應(yīng)該)并行化和允許的內(nèi)容
    的頭像 發(fā)表于 11-07 06:47 ?2783次閱讀

    矢量化的優(yōu)點(diǎn)和數(shù)據(jù)大小的影響

    矢量化的優(yōu)點(diǎn)和數(shù)據(jù)大小的影響
    的頭像 發(fā)表于 11-15 06:36 ?5833次閱讀

    矢量化數(shù)據(jù)并行性的程序方面的作用

    矢量化在加速具有算法固有的數(shù)據(jù)并行性的程序方面起著至關(guān)重要的作用。 英特爾C ++編譯器提供了顯式的矢量編程方法,以提高性能。
    的頭像 發(fā)表于 11-06 06:31 ?2216次閱讀

    矢量化或性能模具:調(diào)整最新的AVX SIMD指令

    英特爾?Advisor可以優(yōu)先考慮用于矢量化的循環(huán),為您提供關(guān)鍵的優(yōu)化數(shù)據(jù),并幫助優(yōu)化新的指令集。 學(xué)習(xí)如何。
    的頭像 發(fā)表于 11-05 06:37 ?3717次閱讀

    一種全新的視角去理解和處理地圖矢量化的任務(wù)

    ? ? 黑芝麻智能的科研團(tuán)隊(duì)在最新公開(kāi)的論文中提出兩點(diǎn)創(chuàng)新:一是建立了一種更加準(zhǔn)確和合理的基于柵格化的“矢量化高精地圖構(gòu)建”的評(píng)價(jià)指標(biāo);二是推出了 MapVR,一個(gè)受益于柵格化視角的更精準(zhǔn)的“矢量化
    的頭像 發(fā)表于 06-27 16:05 ?628次閱讀
    一種全新的視角去理解和處理地圖<b class='flag-5'>矢量化</b>的任務(wù)

    基于矢量化場(chǎng)景表征的端到端自動(dòng)駕駛算法框架

    在ICCV 2023上,地平線和華中科技大學(xué)提出基于矢量化場(chǎng)景表征的端到端自動(dòng)駕駛算法——VAD。VAD擯棄了柵格化表征,對(duì)整個(gè)駕駛場(chǎng)景進(jìn)行矢量化建模(如圖2),并利用矢量環(huán)境信息對(duì)自車規(guī)劃軌跡進(jìn)行
    發(fā)表于 08-31 09:28 ?1144次閱讀
    基于<b class='flag-5'>矢量化</b>場(chǎng)景表征的端到端自動(dòng)駕駛算法框架