如何讓多相機視覺SLAM系統(tǒng)更易于部署且對環(huán)境更具魯棒性?本文提出了一種適用于任意排列多相機的通用視覺里程計系統(tǒng)。在KITTI-360和MultiCamData數(shù)據(jù)集上驗證了該方法對于任意放置相機的魯棒性。與其他立體和多相機視覺SLAM系統(tǒng)相比,該方法獲得了更高的位姿估計精度,具有更好的泛化能力。
01 本文核心內(nèi)容
視覺SLAM乃是機器人技術(shù)與自主導(dǎo)航領(lǐng)域的一項基礎(chǔ)性技術(shù),能使系統(tǒng)借助視覺傳感器估算其相對于所處環(huán)境的運動情況。傳統(tǒng)的單目或立體SLAM系統(tǒng)往往需要嚴格的相機配置,并且在進行真實尺度姿態(tài)估計和地圖構(gòu)建時嚴重依賴慣性測量單元(IMU)。然而,這些方法因視場角狹窄而受限,在相機布置靈活性至關(guān)重要的環(huán)境中表現(xiàn)欠佳,比如大多數(shù)配備6個不同相機的汽車。近來,多相機視覺SLAM在這類情形下展現(xiàn)出了更強的穩(wěn)健性,能夠涵蓋更多的周邊視覺場景,為紋理欠佳的環(huán)境提供冗余信息。這為諸如無人機在雜亂環(huán)境中導(dǎo)航以及配備周邊多相機的自動駕駛等應(yīng)用開辟了新的可能。
然而,當(dāng)前的多相機視覺SLAM系統(tǒng)在實際應(yīng)用中仍面臨諸多挑戰(zhàn)。其一,相機數(shù)量的增多雖提供了信息冗余,卻不可避免地致使數(shù)據(jù)處理壓力數(shù)倍增長。多數(shù)現(xiàn)有的方法采用諸如ORB等傳統(tǒng)的特征關(guān)聯(lián)方式,這導(dǎo)致中央處理器(CPU)的使用率大幅攀升,且難以平衡后端非線性優(yōu)化的資源,進而需要高性能的CPU,否則無法達成實時性。其二,對于多相機視覺里程計(MCVO)系統(tǒng)而言,精確的尺度估計亦頗具挑戰(zhàn)?,F(xiàn)有的方法大多通過多目設(shè)置或添加慣性測量單元(IMUs)來估計尺度,這就要求精心配置相機的視場(FOV)重疊或相機與IMU傳感器之間的外部校準,致使難以在系統(tǒng)配置的靈活性與尺度估計的準確性之間實現(xiàn)平衡。因此,本研究的主要目標是通過解決任意排列的多相機系統(tǒng)中的特征關(guān)聯(lián)計算壓力和尺度估計問題,實現(xiàn)穩(wěn)健且通用的多相機視覺里程計。
為應(yīng)對這些挑戰(zhàn),我們提出了一種通用的多相機視覺里程計系統(tǒng),即MCVO,其僅需處于任意方向和位置的多個剛性捆綁的相機。我們首先從精度-效率的視角對現(xiàn)有的先進特征關(guān)聯(lián)方法進行分析,并設(shè)計了一個基于學(xué)習(xí)的特征提取和跟蹤框架,以轉(zhuǎn)移多個視頻流的CPU處理計算壓力。接著,我們基于每個相機的對齊姿態(tài)間的剛性約束,利用運動恢復(fù)結(jié)構(gòu)(SfM)來初始化SLAM系統(tǒng),以獲取真實尺度的身體姿態(tài)。在后端,我們?nèi)诤隙嘞鄼C特征以實現(xiàn)穩(wěn)健的姿態(tài)估計和尺度優(yōu)化。多相機特征在詞袋(BoW)中進一步串聯(lián),用于閉環(huán)檢測。通過在KITTI-360和MultiCamData數(shù)據(jù)集上的嚴格測試和實際應(yīng)用,我們旨在證明我們的系統(tǒng)在以空前的靈活性和通用性增強各領(lǐng)域自主代理能力方面的有效性。所提出系統(tǒng)的亮點在于:(i)僅需外部參數(shù)要求,即可使用任意朝向布置的多個相機。(ii)通過消除對慣性測量單元(IMU)的依賴,并提供處理任意配置相機(無論重疊與否)的靈活性,其僅專注于視覺信息,從而能夠?qū)崿F(xiàn)真實尺度估計和在線優(yōu)化,提高了準確性和魯棒性。(iii)此外,它能夠適應(yīng)包括但不限于魚眼和標準針孔相機在內(nèi)的多種相機類型,使其適用于廣泛的應(yīng)用場景。
我們的代碼和在線演示可在https://github.com/JunhaoWang615/MCVO上獲取。
02 主要貢獻
我們?yōu)槿我馀帕械亩嘞鄼C提出了一種通用的視覺SLAM系統(tǒng)框架,并對前端的多相機特征檢測和匹配、系統(tǒng)初始化、后端優(yōu)化以及閉環(huán)進行了創(chuàng)新設(shè)計。
我們?nèi)婵紤]現(xiàn)有的最先進(SOTA)特征關(guān)聯(lián)方法,并設(shè)計了基于SuperPoint的提取器和LK跟蹤前端,將CPU的計算壓力轉(zhuǎn)移,提高了特征匹配的穩(wěn)定性,最終為多眼SLAM的穩(wěn)定性和效率提供了保障。
我們提出了一種基于多相機軌跡一致性的SLAM尺度估計策略,該策略兼容不同的相機模型,無論相機視場(FoV)是否重疊,都展現(xiàn)出了強大的泛化性和穩(wěn)定性。
03 方法架構(gòu)
我們所提出的通用多相機視覺里程計框架如圖2所示。該框架的主要輸入為同步的多相機視頻序列。多個相機已提前進行剛性捆綁并校準,其內(nèi)在參數(shù)和外在參數(shù)已知。輸出為現(xiàn)實環(huán)境中的度量尺度6自由度機器人位姿。
該流程包括四個部分:前端特征提取、位姿和度量尺度初始化、后端優(yōu)化以及閉環(huán)檢測。為加速多相機特征關(guān)聯(lián)的前端處理,我們采用了GPU加速的特征提取和3優(yōu)先級特征選擇。然后,我們利用多相機位姿和外在參數(shù)來初始化度量尺度的多相機系統(tǒng)。為確保運動尺度的真實性,我們在后端優(yōu)化過程中對尺度偏差進行自適應(yīng)關(guān)聯(lián)。鑒于多相機系統(tǒng)較大的視場角,我們設(shè)計了一種更穩(wěn)健的多相機全方位閉環(huán)檢測算法。我們還利用位姿圖約束進一步優(yōu)化閉環(huán)中的體位姿。
04 實驗
在本節(jié)中,我們將在兩個公開數(shù)據(jù)集上進行實驗,以評估我們提出的方法。
A.實驗設(shè)置
1)數(shù)據(jù)集:為評估我們的方法,所選用的數(shù)據(jù)集必須包含具有預(yù)先校準的內(nèi)在和外在參數(shù)的多相機設(shè)置。我們選取了兩個公開可用的數(shù)據(jù)集,即KITTI360和MultiCamData,它們具有不同的相機類型、場景類型以及各種相機布局。KITTI360數(shù)據(jù)集是在戶外道路環(huán)境中通過兩個180°魚眼相機和兩個90°針孔相機采集所得,如圖1所示。這四個相機同步且已預(yù)先校準。與EuRoC等其他數(shù)據(jù)集相比,KITTI360具有更大的規(guī)模、更長的距離以及更具挑戰(zhàn)性的場景,例如橋下道路(光照變化)、荒野(紋理退化)和動態(tài)場景。我們對大多數(shù)序列進行了測試,并與真實軌跡進行了對比。MultiCamData是在室內(nèi)環(huán)境中使用6個相機采集的。我們主要使用非重疊的相機(cam0、cam5和cam6)以考察其泛化能力。該數(shù)據(jù)集還涵蓋了具有挑戰(zhàn)性的場景,如狹窄走廊、大型白色墻壁(紋理退化)、突然轉(zhuǎn)彎和動態(tài)場景。
2)評估設(shè)置:我們選取VINS-Fusion、ORB-SLAM3以及MultiCamSLAM作為對比基準。為使VINS-Fusion和ORB-SLAM3獲得度量尺度狀態(tài)估計,針對每個數(shù)據(jù)集的前置立體相機對這兩種方法進行了設(shè)置。而對于MultiCamSLAM,我們采用了與方法[Designand evaluation of a generic visual slam framework for multi-camerasystems]一致的非重疊相機設(shè)置。在KITTI360數(shù)據(jù)集上,MCVO配置了兩個魚眼相機和一個前置針孔相機。在KITTI360上的評估指標涵蓋了絕對軌跡誤差(ATE)、相對位姿誤差(RPE)以及尺度誤差。鑒于MultiCamData缺少真實軌跡,我們按照[Designand evaluation of a generic visual slam framework for multi-camerasystems]中的方式,使用視覺目標來估計初始位姿和最終位姿之間的誤差,因為軌跡的起點和終點處于相同位置。所有實驗均在配備2.5GHzIntelCorei7-11700CPU和NVIDIARTX3060GPU的臺式機上開展。
B.實驗結(jié)果
ATE的定量結(jié)果在表I和圖5中呈現(xiàn)。與立體ORB-SLAM3和VINS-Fusion相比,MCVO在KITTI360的多數(shù)序列上達成了顯著更低的旋轉(zhuǎn)誤差,且平移誤差具有競爭力。這主要歸因于多相機設(shè)置所提供的寬視場,以及前端的高精度和強魯棒性。小尺度誤差進一步證明了我們的尺度估計策略的有效性。MultiCamSLAM方法無法完成KITTI360的多數(shù)序列。此問題源于KITTI360數(shù)據(jù)集是以高速采集的,導(dǎo)致了較大的幀間位移。MultiCamSLAM在處理顯著的幀間位移時存在困難,阻礙了三角測量和初始化。與MCVO在ORB特征方面的對比進一步表明了我們前端設(shè)計的魯棒性。此外,MCVO在MultiCamData上展現(xiàn)出了強勁的性能和魯棒性。其在精度上優(yōu)于VINS-Fusion,與ORB-SLAM3相比僅有細微差距。這種精度上的輕微降低主要是由于室內(nèi)走廊中存在眾多白色墻壁,引入了噪聲,從而影響了多相機視覺里程計(VO)。與同樣采用非重疊相機設(shè)置的MultiCamSLAM相比,MCVO在不同序列中實現(xiàn)了更優(yōu)的精度和更好的泛化能力。
圖6展示了不同方法在KITTI360數(shù)據(jù)集00序列上的RPE結(jié)果。MCVO顯著優(yōu)于其他方法,姿態(tài)漂移最小。這一改進在很大程度上得益于多相機設(shè)置中穩(wěn)健且高效的前端,其場景覆蓋范圍廣泛。擴大的視場為狀態(tài)估計提供了更強的約束,從而導(dǎo)致更高的姿態(tài)估計精度。此外,穩(wěn)健的前端即使在低質(zhì)量場景中也能確保準確的特征跟蹤。這些結(jié)果驗證了MCVO在狀態(tài)估計上的有效性。
為了進一步對性能進行定性分析,我們在圖7中繪制了KITTI360數(shù)據(jù)集的00和05序列上不同方法的軌跡。ORB-SLAM3和VINS-Fusion在00序列中表現(xiàn)出較大的旋轉(zhuǎn)誤差。相比之下,MCVO在這種情況下顯示出更高的穩(wěn)定性和準確性。此外,我們方法的整體軌跡更平滑,位置估計更穩(wěn)定。
05 總結(jié)
在本文中,我們提出了一種通用的多相機視覺里程計系統(tǒng),其在相機設(shè)置方面具有高度靈活性,可適應(yīng)不同類型的相機,無論視場是否重疊。多相機的任意排列,不僅提高了SLAM系統(tǒng)的靈活性,還實現(xiàn)了僅基于相機的穩(wěn)健真實比例姿態(tài)估計。所設(shè)計的基于學(xué)習(xí)的特征關(guān)聯(lián)前端利用GPU有效地減輕了CPU在多相機數(shù)據(jù)處理中的計算壓力,并提高了特征匹配的穩(wěn)定性。在實驗過程中,多相機特征在尺度初始化、后端優(yōu)化和閉環(huán)等系統(tǒng)功能得到了充分驗證。與最先進的技術(shù)進行比較,進一步證明了MCVO在狀態(tài)估計方面的有效性和魯棒性。未來的工作將側(cè)重于在更多平臺上部署MCVO。
-
傳感器
+關(guān)注
關(guān)注
2551文章
51097瀏覽量
753527 -
機器人
+關(guān)注
關(guān)注
211文章
28418瀏覽量
207081 -
相機
+關(guān)注
關(guān)注
4文章
1351瀏覽量
53602 -
SLAM
+關(guān)注
關(guān)注
23文章
424瀏覽量
31830
原文標題:干貨丨空前靈活且通用!支持任意放置相機的多相機視覺里程計
文章出處:【微信號:gh_c87a2bc99401,微信公眾號:INDEMIND】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論