摘要
大家好,今天為大家?guī)?lái)的文章是BundleTrack: 6D Pose Tracking for Novel Objectswithout Instance or Category-Level 3D Models 跟蹤RGBD視頻中物體的6D姿態(tài)對(duì)機(jī)器人操作很重要。然而,大多數(shù)先前的工作通常假設(shè)目標(biāo)對(duì)象的CAD 模型,至少類(lèi)別級(jí)別,可用于離線訓(xùn)練或在線測(cè)試階段模板匹配。
這項(xiàng)工作提出BundleTrack,一個(gè)通用的新對(duì)象的 6D 姿態(tài)跟蹤框架,它不依賴于實(shí)例或類(lèi)別級(jí)別的 3D 模型。
它結(jié)合了最新視頻分割和魯棒特征提取的深度學(xué)習(xí),以及具有記憶功能的姿勢(shì)圖優(yōu)化實(shí)現(xiàn)時(shí)空一致性。
這使得它能進(jìn)行長(zhǎng)期、低漂移在各種具有挑戰(zhàn)性的場(chǎng)景下的6D姿態(tài)跟蹤,測(cè)試了包括重大遮擋和物體運(yùn)動(dòng)的場(chǎng)景。
在2個(gè)公開(kāi)數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,BundleTrack顯著優(yōu)于最先進(jìn)的類(lèi)別級(jí)別6D 跟蹤或動(dòng)態(tài)SLAM 方法。
比較時(shí)反對(duì)依賴于對(duì)象實(shí)例 CAD 的最新方法模型,盡管提出了可比的性能方法的信息需求減少。
一個(gè)高效的在 CUDA 中的實(shí)現(xiàn)提供了實(shí)時(shí)性能。整個(gè)框架運(yùn)行速度達(dá)10Hz。
背景與貢獻(xiàn)
本文有以下貢獻(xiàn):
1.一個(gè)全新的6D物體姿態(tài)算法,不需要實(shí)例或類(lèi)級(jí)別的CAD模型用于訓(xùn)練或測(cè)試階段。該算法可立即用于新穎物體的6D姿態(tài)跟蹤
2.在NOCS數(shù)據(jù)集上的創(chuàng)下全新記錄,將以往的表現(xiàn)從33.3%大幅度提升到87.4%。在YCBInEOAT數(shù)據(jù)集上也達(dá)到了跟目前基于CAD模型的領(lǐng)先方法se(3)-TrackNet相近的表現(xiàn)。特別值得注意的是,與以往state of art的6D物體姿態(tài)跟蹤方法相比,BundleTrack并不需要類(lèi)級(jí)別的物體進(jìn)行訓(xùn)練,也不需要測(cè)試階段物體的CAD模型作模板匹配,減少了很多假設(shè)。
3.首次將具有記憶功能的位姿圖優(yōu)化引入6D物體姿態(tài)跟蹤。除了相鄰幀的匹配還能夠借助帶記憶功能的歷史幀解決特征匹配不足和跟蹤漂移問(wèn)題。以MaskFusion為例的tracking-via-reconstruction方法經(jīng)常因?yàn)槿魏我粠⑿″e(cuò)誤的姿態(tài)估計(jì)進(jìn)行錯(cuò)誤的全局模型構(gòu)建融合,進(jìn)而繼續(xù)影響接下來(lái)的全局模型到觀測(cè)點(diǎn)云的匹配,造成不可逆轉(zhuǎn)的跟蹤漂移。而B(niǎo)undleTrack則不存在此類(lèi)問(wèn)題。
4.高效的CUDA編碼,使得本來(lái)計(jì)算量龐大的位姿優(yōu)化圖能在線實(shí)時(shí)運(yùn)行,達(dá)到10Hz。足夠用于AR/VR,視覺(jué)反饋控制操縱,物體級(jí)SLAM或動(dòng)態(tài)場(chǎng)景下的 SLAM等
問(wèn)題設(shè)置
對(duì)于需要6D跟蹤的物體,該方法不需要任何類(lèi)級(jí)別的CAD模型或者當(dāng)前物體的CAD模型。所需要的輸入只有(1)RGBD視頻;(2)初始掩碼,用于指定需要跟蹤的物體。該掩碼可以通過(guò)多種途徑獲得,例如語(yǔ)義分割,3D點(diǎn)云分割聚類(lèi),平面移除等等。該方法就能輸出跟蹤物體在相機(jī)前相對(duì)初始的 6D姿態(tài)變換
算法流程
A. 方法總覽
當(dāng)前觀察到的 RGB-D視頻流首先送到視頻分割模塊對(duì)目標(biāo)物體提取ROI。分割后的圖片被裁剪、調(diào)整大小并發(fā)送到關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)來(lái)計(jì)算關(guān)鍵點(diǎn)和特征描述符。
一種數(shù)據(jù)關(guān)聯(lián)過(guò)程包括特征匹配和以 RANSAC 的方式進(jìn)行修剪識(shí)別特征對(duì)應(yīng)?;谶@些特征匹配,當(dāng)前幀與前一相鄰幀之間進(jìn)行初步粗略匹配。
該比配可以用閉式求解,然后用于提供粗略兩個(gè)幀之間的轉(zhuǎn)換估計(jì)Tt~。在接下來(lái)的位姿圖優(yōu)化中,Tt~講用于初始化當(dāng)前節(jié)點(diǎn)。為了確定位姿圖中的其余節(jié)點(diǎn),我們從歷史保留的關(guān)鍵幀內(nèi)存池中選擇不超過(guò)K個(gè)關(guān)鍵幀參與位姿圖優(yōu)化。選擇 K 而不用所有歷史幀是為了平衡效率與準(zhǔn)確性權(quán)衡。
姿態(tài)圖邊包括稀疏特征和稠密點(diǎn)到平面的投影殘差,所有這些在 GPU 上并行計(jì)算。姿勢(shì)圖優(yōu)化步驟在線輸出當(dāng)前時(shí)間戳優(yōu)化后姿態(tài)。通過(guò)檢查當(dāng)前幀優(yōu)化后的姿態(tài)的視角,如果它來(lái)自新的視角,那么它將會(huì)存儲(chǔ)在內(nèi)存池中,以備將來(lái)用作關(guān)鍵幀參與位姿圖優(yōu)化。
B.視頻分割
第一步是將對(duì)象的圖像區(qū)域從背景分割。先前的工作 MaskFusion 使用 Mask-RCNN 計(jì)算視頻每一幀中的對(duì)象掩碼。它對(duì)每個(gè)新幀獨(dú)立處理,效率較低并導(dǎo)致不連貫性。
為了避免這些限制,這項(xiàng)工作采用了現(xiàn)成的用于視頻對(duì)象分割的 transductive-VOS 網(wǎng)絡(luò),只需要在Davis 2017和Youtube-VOS 數(shù)據(jù)集上預(yù)訓(xùn)練,泛化到我們的測(cè)試場(chǎng)景,而不需要任何物體的CAD模型進(jìn)行訓(xùn)練。雖然當(dāng)前的實(shí)現(xiàn)使用 transductive-VOS,本文所提出的整個(gè)框架不依賴于這個(gè)特定的網(wǎng)絡(luò)。
如果可以通過(guò)更簡(jiǎn)單的方法計(jì)算對(duì)象掩碼意味著,例如在機(jī)械臂操縱場(chǎng)景下,利用前向運(yùn)動(dòng)學(xué),計(jì)算機(jī)械臂的位置進(jìn)行點(diǎn)云過(guò)濾操作場(chǎng)景,便可以替代視頻分割網(wǎng)絡(luò)模塊,更為簡(jiǎn)單。
C. 特征點(diǎn)檢測(cè),匹配和局部配準(zhǔn) 局部匹配是在連續(xù)的當(dāng)前幀和前一幀之間來(lái)計(jì)算初始粗略姿態(tài)估計(jì) 。
為此,在每個(gè)圖像上檢測(cè)到的關(guān)鍵點(diǎn)之間進(jìn)行匹配用于6D姿態(tài)配準(zhǔn)。不同于先前的工作 6PACK,6PACK依賴于在類(lèi)別級(jí)別的 3D 模型上離線續(xù)聯(lián),學(xué)習(xí)固定數(shù)量的類(lèi)別級(jí)語(yǔ)義關(guān)鍵點(diǎn)。
相反,本文中BundleTrack旨在提高泛化能力,而不是局限于某些實(shí)例或者類(lèi)別。選擇 LF-Net進(jìn)行特征點(diǎn)檢測(cè)是因?yàn)樗钊藵M意性能和推理速度之間的平衡。
它只需要對(duì)一般 2D 圖像進(jìn)行訓(xùn)練,例如此處使用的 ScanNet 數(shù)據(jù)集 ,并推廣到新的場(chǎng)景。該訓(xùn)練過(guò)程不需要收集任何CAD模型,并且一旦訓(xùn)練完成,在所有實(shí)驗(yàn)中都不需要finetune。
主要結(jié)果
實(shí)驗(yàn)在2個(gè)公開(kāi)數(shù)據(jù)集上展現(xiàn)了優(yōu)越表現(xiàn)。NOCS是類(lèi)級(jí)別的靜態(tài)桌面物體場(chǎng)景。YCBInEOAT是機(jī)器人操縱場(chǎng)景下的動(dòng)態(tài)場(chǎng)景。值得注意的是,即使BundleTrack不需要任何CAD模型,反而遠(yuǎn)超此前的state of art方法6PACK:從33.3%提升到87.4%。與實(shí)例級(jí)別的state of art方法se(3)-TrackNet相比,僅有微小的差距。
以下曲線圖反映了跟蹤漂移。BundleTrack的6D姿態(tài)跟蹤錯(cuò)誤從視頻開(kāi)始到結(jié)束幾乎不變。(左)旋轉(zhuǎn)錯(cuò)誤隨時(shí)間變化。(右)平移錯(cuò)誤隨時(shí)間變化。
審核編輯:劉清
-
CAD
+關(guān)注
關(guān)注
18文章
1112瀏覽量
73970 -
SLAM
+關(guān)注
關(guān)注
24文章
436瀏覽量
32375 -
CUDA
+關(guān)注
關(guān)注
0文章
122瀏覽量
14073
原文標(biāo)題:論文精讀|BundleTrack:無(wú)需實(shí)例或類(lèi)級(jí)別3D模型的對(duì)新穎物體的6D姿態(tài)追蹤
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
Altium designer 6(AD6)建立器件簡(jiǎn)易 3D 模型的方法
3D模擬飛機(jī)飛行串口
浩辰3D軟件入門(mén)教程:如何比較3D模型
AD的3D模型繪制功能介紹
浩辰3D的「3D打印」你會(huì)用嗎?3D打印教程
細(xì)數(shù)世界最新穎的幾大3D打印技術(shù)
基于3D打印的原理及應(yīng)用
一種基于深度神經(jīng)網(wǎng)絡(luò)的迭代6D姿態(tài)匹配的新方法
3D姿態(tài)估計(jì) 時(shí)序卷積+半監(jiān)督訓(xùn)練
英偉達(dá)提出了同時(shí)對(duì)未知物體進(jìn)行6D追蹤和3D重建的方法

基于未知物體進(jìn)行6D追蹤和3D重建的方法

基于深度學(xué)習(xí)的3D點(diǎn)云實(shí)例分割方法

一個(gè)用于6D姿態(tài)估計(jì)和跟蹤的統(tǒng)一基礎(chǔ)模型

評(píng)論