av无码精品一区二区三区四区,久久精品国产精品亚洲色娇婷,国产AV无码专区亚洲AV蜜

摘要

近年來，基于視覺的傳感器在SLAM系統(tǒng)中顯示出顯著的性能、精度和效率提升。在這方面，視覺SLAM（VSLAM）方法是指使用相機(jī)進(jìn)行姿態(tài)估計(jì)和地圖生成的SLAM方法。許多研究工作表明，VSLAM優(yōu)于傳統(tǒng)方法，傳統(tǒng)方法僅依賴于特定傳感器，例如激光雷達(dá)，即使成本較低。VSLAM利用不同的攝像機(jī)類型（例如單目、雙目和RGB-D），在不同的數(shù)據(jù)集（例如KITTI、TUM RGB-D和EuRoC）和不同的環(huán)境（例如，室內(nèi)和室外）中進(jìn)行測試，并采用了多種算法和方法論，以更好地解析環(huán)境。上述變化使這一主題受到研究人員的廣泛關(guān)注，并產(chǎn)出了許多經(jīng)典VSLAM算法。在這方面，論文調(diào)查的主要目的是介紹VSLAM系統(tǒng)的最新進(jìn)展，并討論現(xiàn)有的挑戰(zhàn)和未來趨勢。論文對(duì)在VSLAM領(lǐng)域發(fā)表的45篇有影響力的論文進(jìn)行了深入的調(diào)查，并根據(jù)不同的特點(diǎn)對(duì)這些方法進(jìn)行了分類，包括novelty domain、目標(biāo)、采用的算法和語義水平。最后論文討論了當(dāng)前的趨勢和未來的方向，有助于研究人員進(jìn)行研究。

總結(jié)來說，圖1顯示了標(biāo)準(zhǔn)VSLAM方法的整體架構(gòu)。系統(tǒng)的輸入可以與其他傳感器數(shù)據(jù)集成以提供更多信息，例如慣性測量單元（IMU）和激光雷達(dá)，而不是只有視覺數(shù)據(jù)。此外，對(duì)于VSLAM 范式中使用的直接或間接方法，視覺特征處理模塊的功能可能會(huì)被更改或忽略。例如，“特征處理”階段僅用于間接方法。另一個(gè)因素是利用一些特定模塊，如回環(huán)檢測和光束法平差，以改進(jìn)執(zhí)行。

視覺SLAM算法的發(fā)展

VSLAM系統(tǒng)在過去的幾年中已經(jīng)成熟，一些框架在這個(gè)開發(fā)過程中發(fā)揮了重要作用。圖2展示了視覺SLAM發(fā)展過程中的里程碑算法。

首篇實(shí)時(shí)單目VSLAM于2007年由Davison提出，名為Mono SLAM的框架[17]。他們的間接框架可以使用擴(kuò)展卡爾曼濾波（EKF）算法估計(jì)現(xiàn)實(shí)世界中的相機(jī)運(yùn)動(dòng)和3D元素[18]。盡管缺乏全局優(yōu)化和回環(huán)檢測模塊，Mono SLAM開始在VSLAM域中發(fā)揮主要作用。然而用這種方法重建的地圖只包括地標(biāo)，沒有提供關(guān)于該區(qū)域的進(jìn)一步詳細(xì)信息。Klein等人[14]在同一年提出了Parallel Tracking and Mapping（PTAM），他們將整個(gè)VSLAM系統(tǒng)分為兩個(gè)主要線程：tracking和mapping。PTAM為后續(xù)很多工作奠定了基石。PTAM方法的主要思想是降低計(jì)算成本，并使用并行處理來實(shí)現(xiàn)實(shí)時(shí)性能。當(dāng)tracking實(shí)時(shí)估計(jì)攝像機(jī)運(yùn)動(dòng)時(shí)，mapping預(yù)測特征點(diǎn)的3D位置。PTAM也是第一個(gè)利用光束法平差（BA）聯(lián)合優(yōu)化相機(jī)姿態(tài)和3D地圖創(chuàng)建的方法。其使用Features from Accelerated Segment Test（FAST）[19]的角點(diǎn)檢測器算法進(jìn)行關(guān)鍵點(diǎn)匹配和跟蹤。盡管該算法的性能優(yōu)于Mono SLAM，但其設(shè)計(jì)復(fù)雜，在第一階段需要用戶輸入。Newcombe等人于2011年提出了一種用于測量深度值和運(yùn)動(dòng)參數(shù)來構(gòu)建地圖的直接方法，即密集跟蹤和映射（DTAM）。DTAM是一種密集建圖和密集跟蹤模塊的實(shí)時(shí)框架，可通過將整個(gè)幀與給定深度圖對(duì)齊來確定相機(jī)姿態(tài)。為了構(gòu)建環(huán)境地圖，上述階段分別估計(jì)場景的深度和運(yùn)動(dòng)參數(shù)。雖然DTAM可以提供地圖的詳細(xì)信息，但實(shí)時(shí)執(zhí)行需要較高的計(jì)算成本。作為3D 建圖和基于像素的優(yōu)化領(lǐng)域中的另一種間接方法，Endres等人在2013年提出了一種可用于RGB-D相機(jī)的方法。他們的方法是實(shí)時(shí)的，專注于低成本嵌入式系統(tǒng)和小型機(jī)器人，但在無特征或具有挑戰(zhàn)性的場景中無法產(chǎn)生準(zhǔn)確的結(jié)果。同年，Salas Moreno等人[22]提出了SLAM++，是實(shí)時(shí)SLAM框架中利用語義信息的開山之作。SLAM++采用RGB-D傳感器輸出，并進(jìn)行3D相機(jī)姿態(tài)估計(jì)和跟蹤以形成姿態(tài)圖。然后通過合并從場景中的語義目標(biāo)獲得的相對(duì)3D姿態(tài)來優(yōu)化預(yù)測姿態(tài)。

隨著VSLAM基線的成熟，研究人員專注于提高這些系統(tǒng)的性能和精度。Forster等人在2014年提出了一種混合VO方法，稱為Semi-direct Visual Odometry（SVO）[24]。SVO可以結(jié)合基于特征的方法和直接方法來實(shí)現(xiàn)傳感器的運(yùn)動(dòng)估計(jì)和建圖任務(wù)。SVO可以與單目和雙目相機(jī)一起工作，并配備了一個(gè)姿態(tài)細(xì)化模塊，以最小化重投影誤差。然而，SVO的主要缺點(diǎn)是采用短期數(shù)據(jù)關(guān)聯(lián)，并且無法進(jìn)行回環(huán)檢測和全局優(yōu)化。LSD-SLAM[25]是Engel等人于2014年提出的另一種有影響力的VSLAM方法，包含跟蹤、深度估計(jì)和地圖優(yōu)化。該方法可以使用其姿態(tài)圖估計(jì)模塊重建大規(guī)模地圖，并具有全局優(yōu)化和回環(huán)檢測功能。LSD-SLAM的弱點(diǎn)在于其初始化階段，需要平面中的所有點(diǎn)，這使其成為一種計(jì)算密集型方法。Mur Artal等人介紹了兩種精確的間接VSLAM方法，迄今為止廣受關(guān)注：ORB-SLAM[26]和ORBSLAM 2.0[27]。這些方法可以在紋理良好的序列中完成定位和建圖，并使用Oriented FAST and Rotated BRIEF（ORB）特征實(shí)現(xiàn)高性能的位置識(shí)別。ORB-SLAM的第一個(gè)版本能夠使用從相機(jī)位置收集的關(guān)鍵幀來計(jì)算相機(jī)位置和環(huán)境結(jié)構(gòu)。第二個(gè)版本是對(duì)ORB-SLAM的擴(kuò)展，有三個(gè)并行線程，包括查找特征對(duì)應(yīng)的跟蹤、地圖管理操作的局部建圖，以及用于檢測新環(huán)路和糾正漂移錯(cuò)誤的回環(huán)。盡管ORB-SLAM 2.0可以與單目和立體相機(jī)一起使用，但由于重建具有未知比例的地圖，因此不能用于自主導(dǎo)航。這種方法的另一個(gè)缺點(diǎn)是其無法在沒有紋理的區(qū)域或具有重復(fù)模式的環(huán)境中工作。該框架的最新版本名為ORB-SLAM 3.0，于2021提出[28]。它適用于各種相機(jī)類型，如單目、RGB-D和雙目視覺，并提供改進(jìn)的姿態(tài)估計(jì)輸出。

近年來，隨著深度學(xué)習(xí)的快速發(fā)展，基于CNN的方法可以通過提供更高的識(shí)別和匹配率來解決許多問題。類似地，用學(xué)習(xí)特征替換人工設(shè)計(jì)的特征是許多最近基于深度學(xué)習(xí)的方法提出的解決方案之一。在這方面，Tateno等人提出了一種基于CNN的方法，該方法處理相機(jī)姿態(tài)估計(jì)的輸入幀，并使用關(guān)鍵幀進(jìn)行深度預(yù)測，命名為CNN-SLAM[29]。CNN-SLAM實(shí)現(xiàn)并行處理和實(shí)時(shí)性能的核心思想之一是，將相機(jī)幀分割成較小的部分以更好地理解環(huán)境。Engel等人還引入了Direct Sparse Odometry（DSO）[30]，其將直接方法和稀疏重建相結(jié)合，以提取圖像塊中的最高強(qiáng)度點(diǎn)。

綜上所述，VSLAM系統(tǒng)演進(jìn)過程中的里程碑表明，最近的方法側(cè)重于多個(gè)專用模塊的并行執(zhí)行。這些模塊形成了與廣泛的傳感器和環(huán)境兼容的通用技術(shù)和框架。上述特性使它們能夠?qū)崟r(shí)執(zhí)行，并且在性能改進(jìn)方面更加靈活。

相關(guān)綜述

VSLAM領(lǐng)域已有不少綜述，對(duì)不同的現(xiàn)有方法進(jìn)行了全面調(diào)查。每一篇論文都回顧了使用VSLAM方法的主要優(yōu)點(diǎn)和缺點(diǎn)。Macario Barros等人[31]將方法分為三個(gè)不同類別：僅視覺（單目）、視覺慣性（立體）和RGB-D。他們還提出了簡化分析VSLAM算法的各種標(biāo)準(zhǔn)。然而[31]并沒有包括其他視覺傳感器，比如基于事件的傳感器。Chen等人[32]調(diào)查了廣泛的傳統(tǒng)和語義VSLAM。他們將SLAM開發(fā)時(shí)代分為經(jīng)典、算法分析和魯棒感知階段。并總結(jié)了采用直接/間接方法的經(jīng)典框架，研究了深度學(xué)習(xí)算法在語義分割中的影響。盡管他們的工作提供了該領(lǐng)域高級(jí)解決方案的全面研究，但方法的分類僅限于基于特征的VSLAM中使用的特征類型。Jia等人[33]調(diào)查了大量文獻(xiàn)，并對(duì)基于圖優(yōu)化的方法和配備深度學(xué)習(xí)的方法進(jìn)行了簡要比較。在另一項(xiàng)工作中，Abaspur Kazerouni等人[34]涵蓋了各種VSLAM方法，利用了感官設(shè)備、數(shù)據(jù)集和模塊，并模擬了幾種間接方法進(jìn)行比較和分析。它們只對(duì)基于特征的算法進(jìn)行分析，例如HOG、尺度不變特征變換（SIFT）、加速魯棒特征（SURF）和基于深度學(xué)習(xí)的解決方案。Bavle等人[35]分析了各種SLAM和VSLAM應(yīng)用中的態(tài)勢感知方面，并討論了它們的缺失點(diǎn)。還有一些其他綜述如[15]、[36]、[37]、[32]、[37]在此不再贅述。

與上述綜述不同，本文對(duì)不同場景的VSLAM系統(tǒng)進(jìn)行全面調(diào)查，主要貢獻(xiàn)如下：

對(duì)各種最近的VSLAM方法進(jìn)行分類，這些方法涉及研究人員在提出新解決方案方面的主要貢獻(xiàn)、標(biāo)準(zhǔn)和目標(biāo)；

通過深入研究不同方法的不同方面，分析VSLAM系統(tǒng)的當(dāng)前趨勢；

介紹VSLAM對(duì)研究人員的潛在貢獻(xiàn)。

VSLAM 設(shè)置標(biāo)準(zhǔn)

考慮到各種VSLAM方法，論文將可用的不同設(shè)置和配置分為以下類別：傳感器和數(shù)據(jù)采集、目標(biāo)環(huán)境、視覺特征處理、系統(tǒng)評(píng)估和語義類別，下面逐一介紹。

傳感器和數(shù)據(jù)采集

Davison等人[17]引入的VSLAM算法的早期階段配備了用于軌跡恢復(fù)的單目攝像機(jī)。單目相機(jī)是最常見的視覺傳感器，用于各種任務(wù)，如物體檢測和跟蹤[39]。另一方面，立體相機(jī)包含兩個(gè)或更多圖像傳感器，使其能夠感知圖像中的深度，從而在VSLAM應(yīng)用中實(shí)現(xiàn)更準(zhǔn)確的性能。相機(jī)設(shè)置具有成本效益，并為更高的精度要求提供信息感知。RGB-D相機(jī)也是VSLAM中使用的視覺傳感器，其可以提供場景中的深度和顏色。上述視覺傳感器可以提供豐富的環(huán)境信息，例如，適當(dāng)?shù)恼彰骱瓦\(yùn)動(dòng)速度，但它們通常難以應(yīng)對(duì)照明度低或場景動(dòng)態(tài)范圍高的情況。

近年來，事件攝像機(jī)也被用于各種VSLAM應(yīng)用中。當(dāng)檢測到運(yùn)動(dòng)時(shí)，這些低延遲仿生視覺傳感器產(chǎn)生像素級(jí)亮度變化，而不是標(biāo)準(zhǔn)強(qiáng)度幀，從而實(shí)現(xiàn)高動(dòng)態(tài)范圍輸出，而不會(huì)產(chǎn)生運(yùn)動(dòng)模糊影響[40]。與標(biāo)準(zhǔn)相機(jī)相比，事件傳感器在高速運(yùn)動(dòng)和大范圍動(dòng)態(tài)場景中可以提供可靠的視覺信息，但在運(yùn)動(dòng)速度較低時(shí)無法提供足夠的信息。另一方面，事件相機(jī)主要輸出關(guān)于環(huán)境的不同步信息。這使得傳統(tǒng)的視覺算法無法處理這些傳感器的輸出[41]。此外，使用事件的時(shí)空窗口以及從其他傳感器獲得的數(shù)據(jù)可以提供豐富的姿態(tài)估計(jì)和跟蹤信息。

此外，一些方法使用多目相機(jī)設(shè)置來解決在真實(shí)環(huán)境中工作的常見問題，并提高定位精度。利用多目傳感器有助于解決復(fù)雜問題，例如遮擋、偽裝、傳感器故障或可跟蹤紋理稀疏等，為攝像機(jī)提供重疊視角。盡管多目相機(jī)可以解決一些數(shù)據(jù)采集問題，但純視覺的VSLAM可能會(huì)面臨各種挑戰(zhàn)，例如遇到快速移動(dòng)目標(biāo)時(shí)的運(yùn)動(dòng)模糊、低照度或高照度下的特征不匹配、高速變化場景下的動(dòng)態(tài)目標(biāo)忽略等。因此，一些VSLAM應(yīng)用程序可能會(huì)在攝像機(jī)旁邊配備多個(gè)傳感器。融合事件和標(biāo)準(zhǔn)幀[42]或?qū)⑵渌麄鞲衅鳎ㄈ缂す饫走_(dá)[43]和IMU）集成到VSLAM是一些現(xiàn)有的解決方案。

目標(biāo)環(huán)境

作為許多傳統(tǒng)VSLAM實(shí)踐中的一個(gè)有力假設(shè)，機(jī)器人在靜態(tài)世界中工作，沒有突然或意外的變化。因此，盡管許多系統(tǒng)可以在特定環(huán)境中成功應(yīng)用，但環(huán)境中的一些意外變化（例如，移動(dòng)目標(biāo)的存在）可能會(huì)導(dǎo)致系統(tǒng)復(fù)雜化，并在很大程度上降低狀態(tài)估計(jì)質(zhì)量。在動(dòng)態(tài)環(huán)境中工作的系統(tǒng)通常使用諸如光流或隨機(jī)采樣一致性（RANSAC）[44]之類的算法來檢測場景中的移動(dòng)，將移動(dòng)目標(biāo)分類為異常值，并在重建地圖時(shí)跳過它們。這樣的系統(tǒng)利用幾何/語義信息或試圖通過組合這兩個(gè)結(jié)果來改進(jìn)定位方案[45]。

此外作為一般分類法，論文將環(huán)境分為室內(nèi)和室外兩類。室外環(huán)境可以是具有結(jié)構(gòu)地標(biāo)和大規(guī)模運(yùn)動(dòng)變化（如建筑物和道路紋理）的城市區(qū)域，或具有弱運(yùn)動(dòng)狀態(tài)（如移動(dòng)的云和植被、沙子紋理等）的越野區(qū)域，這增加了定位和回環(huán)檢測失敗的風(fēng)險(xiǎn)。另一方面，室內(nèi)環(huán)境包含具有完全不同的全局空間屬性的場景，例如走廊、墻和房間。論文認(rèn)為，雖然VSLAM系統(tǒng)可能在上述區(qū)域中的一個(gè)工作良好，但在其他環(huán)境中可能表現(xiàn)不出相同的性能。

視覺特征處理

如前文所述，檢測視覺特征并利用特征描述子信息進(jìn)行姿態(tài)估計(jì)是間接VSLAM方法的一個(gè)必要階段。這些方法使用各種特征提取算法來更好地理解環(huán)境并跟蹤連續(xù)幀中的特征點(diǎn)。特征提取算法有很多，包括SIFT[46]、SURF[47]、FAST[19]、BRIEF[48]、ORB[49]等。其中，與SIFT和SURF[50]相比，ORB特征具有快速提取和匹配而不大幅損失準(zhǔn)確度的優(yōu)點(diǎn)。

上述一些方法的問題是它們不能有效地適應(yīng)各種復(fù)雜和不可預(yù)見的情況。因此，許多研究人員使用CNN來提取圖像特征，包括VO、姿態(tài)估計(jì)和回環(huán)檢測。根據(jù)方法的功能，這些技術(shù)可以表示有監(jiān)督或無監(jiān)督的框架。

系統(tǒng)評(píng)估

雖然一些VSLAM方法，特別是那些能夠在動(dòng)態(tài)和挑戰(zhàn)性環(huán)境中工作的方法，在真實(shí)世界中進(jìn)行測試。但許多研究工作都使用了公開的數(shù)據(jù)集來證明其適用性。在這方面，Bonarini等人[51]的RAWSEEDS數(shù)據(jù)集是一個(gè)著名的多傳感器基準(zhǔn)測試工具，包含室內(nèi)、室外和混合機(jī)器人軌跡與真值數(shù)據(jù)。它是用于機(jī)器人和SLAM目的的最古老的公開基準(zhǔn)測試工具之一。McCormac等人[52]的Scenenet RGB-D是場景理解問題的另一個(gè)受歡迎的數(shù)據(jù)集，例如語義分割和目標(biāo)檢測，包含500萬個(gè)大規(guī)模渲染的RGB-D圖像。最近在VSLAM和VO領(lǐng)域的許多工作已經(jīng)在TUM RGB-D數(shù)據(jù)集上測試了它們的方法[53]。此外，Nguyen等人[54]的NTU VIRAL是由配備3D激光雷達(dá)、相機(jī)、IMU和多個(gè)超寬帶（UWB）的無人機(jī)收集的數(shù)據(jù)集。該數(shù)據(jù)集包含室內(nèi)和室外實(shí)例，旨在評(píng)估自動(dòng)駕駛和空中操作性能。其他數(shù)據(jù)集如EuRoC MAV[55]、OpenLORIS Scene[56]、KITTI[57]、TartanAir[58]、ICL-NUIM[59]和基于事件相機(jī)的數(shù)據(jù)集[60]可以參考相關(guān)論文。

根據(jù)傳感器設(shè)置、應(yīng)用和目標(biāo)環(huán)境，上述數(shù)據(jù)集用于多種VSLAM方法。這些數(shù)據(jù)集主要包含攝像機(jī)的內(nèi)外參以及GT。表I和圖3分別顯示了數(shù)據(jù)集的總結(jié)特征和每個(gè)數(shù)據(jù)集的一些實(shí)例。

語義等級(jí)

機(jī)器人需要語義信息才能理解周圍的場景并做出更優(yōu)決策。在許多最近的VSLAM工作中，將語義級(jí)信息添加到基于幾何的數(shù)據(jù)中優(yōu)于純幾何的方法，使其能夠提供環(huán)境的概念知識(shí)[61]。在這方面，預(yù)先訓(xùn)練的目標(biāo)識(shí)別模塊可以將語義信息添加到VSLAM模型[62]。最新的方法之一是在VSLAM應(yīng)用中使用CNN。一般來說，語義VSLAM方法包含以下四個(gè)主要組成部分[43]：

跟蹤模塊：它使用從連續(xù)視頻幀中提取的二維特征點(diǎn)來估計(jì)相機(jī)姿態(tài)并構(gòu)建三維地圖點(diǎn)。相機(jī)姿態(tài)的計(jì)算和3D地圖點(diǎn)的構(gòu)建分別建立了定位和建圖過程的基線；

局部建圖模塊：通過處理兩個(gè)連續(xù)視頻幀，創(chuàng)建了一個(gè)新的3D地圖點(diǎn)，該點(diǎn)與BA模塊一起用于改進(jìn)相機(jī)姿態(tài)；

回環(huán)模塊：通過將關(guān)鍵幀與提取的視覺特征進(jìn)行比較并評(píng)估它們之間的相似性，進(jìn)一步調(diào)整相機(jī)姿態(tài)并優(yōu)化構(gòu)建的地圖；

非剛性上下文消隱 (Non-Rigid Context Culling，NRCC)：使用NRCC的主要目標(biāo)是從視頻幀中過濾時(shí)間目標(biāo)，以減少它們對(duì)定位和建圖階段的不利影響。其主要包含一個(gè)分割過程，用于分離幀中的各種不穩(wěn)定實(shí)例，例如人。由于NRCC可以減少待處理的特征點(diǎn)的數(shù)量，因此簡化了計(jì)算部分并獲得了更魯棒的性能。

因此，在VSLAM方法中利用語義信息可以改善姿態(tài)估計(jì)和地圖重建的不確定性。然而，當(dāng)前的挑戰(zhàn)是如何正確使用提取的語義信息，而不影響計(jì)算成本。

基于主要目標(biāo)的VSLAM方法

目標(biāo)一：多傳感器處理

這一類別涵蓋了使用各種傳感器以更好地了解環(huán)境的VSLAM方法的范圍。雖然一些技術(shù)僅依賴攝像機(jī)作為所使用的視覺傳感器，但其他技術(shù)將各種傳感器結(jié)合起來以提高算法的準(zhǔn)確性。

1）使用多相機(jī)

一個(gè)相機(jī)重建運(yùn)動(dòng)物體的3D軌跡可能很困難，一些研究人員建議使用多相機(jī)。例如，CoSLAM是Zou和Tan[63]推出的一個(gè)VSLAM系統(tǒng)，它使用部署在不同平臺(tái)上的單攝像機(jī)來重建魯棒地圖。CoSLAM結(jié)合了在動(dòng)態(tài)環(huán)境中獨(dú)立移動(dòng)的多個(gè)攝像機(jī)，并根據(jù)它們重疊的視場重建地圖。該過程通過混合相機(jī)內(nèi)和相機(jī)間姿態(tài)估計(jì)和建圖，使得在3D中重建動(dòng)態(tài)點(diǎn)更容易。CoSLAM使用Kanade-Lucas-Tomasi（KLT）算法跟蹤視覺特征，并在靜態(tài)和動(dòng)態(tài)環(huán)境中運(yùn)行，包括室內(nèi)和室外，其中相對(duì)位置和方向可能會(huì)隨時(shí)間變化。這種方法的主要缺點(diǎn)是需要復(fù)雜的硬件來理解大量的攝像機(jī)輸出，并通過增加更多的攝像機(jī)來增加計(jì)算成本。

對(duì)于具有挑戰(zhàn)性的野外場景，Yang等人[64]開發(fā)了一種多攝像機(jī)協(xié)同全景視覺VSLAM方法。[64]賦予每個(gè)攝像機(jī)獨(dú)立性，以提高VSLAM系統(tǒng)在挑戰(zhàn)場景下的性能，例如遮擋和紋理稀疏。為了確定匹配范圍，他們從攝像機(jī)的重疊視場中提取ORB特征。此外，[64]還使用了基于CNN的深度學(xué)習(xí)技術(shù)來識(shí)別回環(huán)檢測的類似特征。在實(shí)驗(yàn)中，作者使用了由全景相機(jī)和集成導(dǎo)航系統(tǒng)生成的數(shù)據(jù)集。相關(guān)工作還有MultiCol-SLAM[65]。

2）使用多傳感器

其他一些方法建議融合多傳感器，并使用基于視覺和慣性的傳感器輸出以獲得更好的性能。在這方面，Zhu等人[66]提出了一種稱為CamVox的低成本間接激光雷達(dá)輔助VSLAM，并證明了其可靠的性能和準(zhǔn)確性。他們的方法使用ORB-SLAM 2.0，將Livox激光雷達(dá)作為高級(jí)深度傳感器提供的獨(dú)特功能與RGB-D相機(jī)的輸出相結(jié)合。作者使用IMU來同步和校正非重復(fù)掃描位置。CamVox貢獻(xiàn)是提出了一種在不受控制的環(huán)境中運(yùn)行的自主激光雷達(dá)-相機(jī)校準(zhǔn)方法。在機(jī)器人平臺(tái)上的實(shí)測表明，CamVox在能夠?qū)崟r(shí)運(yùn)行。

[67]提出了一種名為VIRAL（視覺-慣性-測距-激光雷達(dá)）SLAM的多模態(tài)系統(tǒng)，該系統(tǒng)將相機(jī)、激光雷達(dá)、IMU和UWB耦合起來。并提出了一種基于激光雷達(dá)點(diǎn)云構(gòu)建的局部地圖的視覺特征地圖匹配邊緣化方案。使用BRIEF算法提取和跟蹤視覺分量。該框架還包含用于所使用的傳感器的同步方案和觸發(fā)器。VIRAL在NTU VIRAL[54]數(shù)據(jù)集上測試了他們的方法，該數(shù)據(jù)集包含相機(jī)、激光雷達(dá)、IMU和UWB傳感器捕獲的數(shù)據(jù)。然而，由于處理同步、多線程和傳感器沖突解決，他們的方法計(jì)算量很大。其他相關(guān)算法Ultimate SLAM[68]、[69]可以參考相關(guān)論文。

目標(biāo)二：姿態(tài)估計(jì)

這類方法的重點(diǎn)是如何使用各種算法改進(jìn)VSLAM方法的姿態(tài)估計(jì)。

1）使用線/點(diǎn)數(shù)據(jù)

在這方面，Zhou等人[70]建議使用建筑結(jié)構(gòu)線段作為有用的特征來確定相機(jī)姿態(tài)。結(jié)構(gòu)線與主導(dǎo)方向相關(guān)聯(lián)，并編碼全局方向信息，從而改善預(yù)測軌跡。方法名為StructSLAM，是一種6自由度（DoF）VSLAM技術(shù)，可在低特征和無特征條件下運(yùn)行。

Point and Line SLAM（PL-SLAM）是一種基于ORB-SLAM的VSLAM系統(tǒng)，針對(duì)非動(dòng)態(tài)低紋理場景進(jìn)行了優(yōu)化，由Pumarola等人提出[71]。該系統(tǒng)同時(shí)融合線和點(diǎn)特征以改進(jìn)姿態(tài)估計(jì)，并幫助在特征點(diǎn)較少的情況下運(yùn)行。作者在生成的數(shù)據(jù)集和TUM RGB-D上測試了PL-SLAM。其方法的缺點(diǎn)是計(jì)算成本和必須使用其他幾何圖元（例如平面），以獲得更穩(wěn)健的精度。

Gomez-Ojeda等人[72]介紹了PL-SLAM（不同于Pumarola等人[71]中同名的框架），這是一種間接VSLAM技術(shù)，使用立體視覺相機(jī)中的點(diǎn)和線來重建看不見的地圖。他們將從所有VSLAM模塊中的點(diǎn)和線獲得的片段與從其方法中的連續(xù)幀獲取的視覺信息合并。使用ORB和線段檢測器（LSD）算法，在PL-SLAM中的后續(xù)立體幀中檢索和跟蹤點(diǎn)和線段。作者在EuRoC和KITTI數(shù)據(jù)集上測試了PL-SLAM，在性能方面可能優(yōu)于ORB-SLAM 2.0的立體版本。PL-SLAM的主要缺點(diǎn)之一是特征跟蹤模塊所需的計(jì)算時(shí)間以及考慮所有結(jié)構(gòu)線以提取關(guān)于環(huán)境的信息。其他相關(guān)算法[73]可以參考論文。

2）使用額外特征

[74]中提出了Dual Quaternion Visual SLAM（DQV-SLAM），一種用于立體視覺相機(jī)的框架，該框架使用廣泛的貝葉斯框架進(jìn)行6-DoF姿態(tài)估計(jì)。為了防止非線性空間變換組的線性化，他們的方法使用漸進(jìn)貝葉斯更新。對(duì)于地圖的點(diǎn)云和光流，DQV-SLAM使用ORB功能在動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)可靠的數(shù)據(jù)關(guān)聯(lián)。在KITTI和EuRoC數(shù)據(jù)集上，該方法可以可靠地得到預(yù)測結(jié)果。然而，它缺乏姿態(tài)隨機(jī)建模的概率解釋，并且對(duì)基于采樣近似的濾波的計(jì)算要求很高。其他相關(guān)算法SPM-SLAM[75]可以參考論文。

3）深度學(xué)習(xí)

Bruno和Colombini[76]提出了LIFT-SLAM，它將基于深度學(xué)習(xí)的特征描述子與傳統(tǒng)的基于幾何的系統(tǒng)相結(jié)合。并擴(kuò)展了ORB-SLAM系統(tǒng)的流水線，使用CNN從圖像中提取特征，基于學(xué)習(xí)得到的特征提供更密集和精確的匹配。為了檢測、描述和方向估計(jì)，LIFT-SLAM微調(diào)學(xué)習(xí)不變特征變換（LIFT）深度神經(jīng)網(wǎng)絡(luò)。使用KITTI和EuRoC MAV數(shù)據(jù)集的室內(nèi)和室外實(shí)例進(jìn)行的研究表明，LIFT-SLAM在精度方面優(yōu)于傳統(tǒng)的基于特征和基于深度學(xué)習(xí)的VSLAM系統(tǒng)。然而，該方法的缺點(diǎn)是其計(jì)算密集的流水線和未優(yōu)化的CNN設(shè)計(jì)。

Naveed等人[77]提出了一種基于深度學(xué)習(xí)的VSLAM解決方案，該解決方案具有可靠且一致的模塊，即使在極端轉(zhuǎn)彎的路線上也是如此。他們的方法優(yōu)于幾種VSLAM，并使用了在真實(shí)模擬器上訓(xùn)練的深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)。此外，它們還為主動(dòng)VSLAM評(píng)估提供了基線，并可在實(shí)際室內(nèi)和室外環(huán)境中適當(dāng)推廣。網(wǎng)絡(luò)的路徑規(guī)劃器開發(fā)了理想的路徑數(shù)據(jù)，由其基礎(chǔ)系統(tǒng)ORB-SLAM接收。[77]制作了一個(gè)數(shù)據(jù)集，包含了挑戰(zhàn)性和無紋理環(huán)境中的實(shí)際導(dǎo)航事件，以供評(píng)估。其他方法RWT-SLAM[78]可參考相關(guān)論文。

目標(biāo)三：現(xiàn)實(shí)世界可行性

這類方法的主要目標(biāo)是在各種環(huán)境中使用，并在多種場景下工作。論文注意到，本節(jié)中的引用與從環(huán)境中提取的語義信息高度集成，并展示了端到端的VSLAM應(yīng)用。

1）動(dòng)態(tài)環(huán)境

在這方面，Yu等人[61]引入了一個(gè)名為DS-SLAM的VSLAM系統(tǒng)，該系統(tǒng)可用于動(dòng)態(tài)上下文，并為地圖構(gòu)建提供語義級(jí)信息。該系統(tǒng)基于ORB-SLAM 2.0，包含五個(gè)線程：跟蹤、語義分割、局部建圖、回環(huán)和密集語義圖構(gòu)建。為了在姿態(tài)估計(jì)過程之前排除動(dòng)態(tài)目標(biāo)并提高定位精度，DS-SLAM使用了實(shí)時(shí)語義分割網(wǎng)絡(luò)SegNet的光流算法[80]。DS-SLAM已經(jīng)在現(xiàn)實(shí)世界環(huán)境中、RGB-D相機(jī)以及TUM RGB-D數(shù)據(jù)集上進(jìn)行了測試。然而，盡管它的定位精度很高，但它仍面臨語義分割限制和計(jì)算密集型特征的問題。

Semantic Optical Flow SLAM（SOF-SLAM）是基于ORB-SLAM 2.0的RGB-D模式構(gòu)建的間接VSLAM系統(tǒng)[45]。他們的方法使用語義光流動(dòng)態(tài)特征檢測模塊，該模塊提取并跳過ORB特征提取提供的語義和幾何信息中隱藏的變化特征。為了提供準(zhǔn)確的相機(jī)姿態(tài)和環(huán)境信息，SOF-SLAM使用了SegNet的像素級(jí)語義分割模塊。在極端動(dòng)態(tài)的情況下，TUM RGB-D數(shù)據(jù)集和現(xiàn)實(shí)環(huán)境中的實(shí)驗(yàn)結(jié)果表明，SOF-SLAM的性能優(yōu)于ORB-SLAM 2.0。然而，非靜態(tài)特征識(shí)別的無效方法和僅依賴于兩個(gè)連續(xù)幀是SOF-SLAM的缺點(diǎn)。其他相關(guān)算法[81]、[82]可以參考相關(guān)論文。

2）基于深度學(xué)習(xí)的解決方案

在Li等人[83]的另一個(gè)名為DXSLAM的工作中，深度學(xué)習(xí)用于找到類似于SuperPoints的關(guān)鍵點(diǎn)，并生成通用描述子和圖像的關(guān)鍵點(diǎn)。他們訓(xùn)練先進(jìn)的CNN HF-NET，通過從每個(gè)幀中提取局部和全局信息，生成基于幀和關(guān)鍵點(diǎn)的描述子。此外還使用離線Bag of Words（BoW）方法訓(xùn)練局部特征的視覺詞匯表，以實(shí)現(xiàn)精確的回環(huán)識(shí)別。DXSLAM在不使用GPU的情況下實(shí)時(shí)運(yùn)行，并且與當(dāng)代CPU兼容。即使這些品質(zhì)沒有得到特別的處理，它也有很強(qiáng)的抵抗動(dòng)態(tài)環(huán)境中動(dòng)態(tài)變化的能力。DXSLAM已經(jīng)在TUM RGB-D和OpenLORIS場景數(shù)據(jù)集以及室內(nèi)和室外圖像上進(jìn)行了測試，可以獲得比ORB-SLAM 2.0和DS-SLAM更準(zhǔn)確的結(jié)果。然而，這種方法的主要缺點(diǎn)是復(fù)雜的特征提取架構(gòu)和將深層特征合并到舊的SLAM框架中。

在另一種方法中，Li等人[84]開發(fā)了一種實(shí)時(shí)VSLAM技術(shù)，用于在復(fù)雜情況下基于深度學(xué)習(xí)提取特征點(diǎn)。該方法可以在GPU上運(yùn)行，支持創(chuàng)建3D密集地圖，是一個(gè)具有自監(jiān)督功能的多任務(wù)特征提取CNN。CNN輸出是固定長度為256的二進(jìn)制代碼串，這使得它可以被更傳統(tǒng)的特征點(diǎn)檢測器（如ORB）所取代。系統(tǒng)包括三個(gè)線程，用于在動(dòng)態(tài)場景中實(shí)現(xiàn)可靠和及時(shí)的性能：跟蹤、局部建圖和回環(huán)。支持使用ORB-SLAM 2.0作為基線的單目和RGB-D相機(jī)的系統(tǒng)。其他相關(guān)算法[85]可以參考相關(guān)論文。

3）使用人工地標(biāo)

Medina Carnicer等人提出的一種稱為UcoSLAM[86]的技術(shù)，通過結(jié)合自然和人造地標(biāo)，并使用基準(zhǔn)標(biāo)記自動(dòng)計(jì)算周圍環(huán)境的比例，從而優(yōu)于傳統(tǒng)的VSLAM系統(tǒng)。UcoSLAM的主要驅(qū)動(dòng)力是對(duì)抗自然地標(biāo)的不穩(wěn)定性、重復(fù)性和較差的跟蹤質(zhì)量。它可以在沒有標(biāo)簽或特征的環(huán)境中運(yùn)行，因?yàn)樗荒茉陉P(guān)鍵點(diǎn)、地標(biāo)和混合模式下運(yùn)行。為了定位地圖對(duì)應(yīng)關(guān)系，優(yōu)化重投影誤差，并在跟蹤失敗時(shí)重新定位，UcoSLAM具有跟蹤模式。此外，它有一個(gè)基于地標(biāo)的回環(huán)檢測系統(tǒng)，可以使用任何描述子描述特征，包括ORB和FAST。盡管UcoSLAM有很多優(yōu)點(diǎn)，但系統(tǒng)在多線程中執(zhí)行，這使得它成為一種耗時(shí)的方法。

4）廣泛的設(shè)置

用于動(dòng)態(tài)室內(nèi)和室外環(huán)境的另一種VSLAM策略是DMS-SLAM[87]，它支持單目、立體和RGB-D視覺傳感器。該系統(tǒng)采用滑動(dòng)窗口和基于網(wǎng)格的運(yùn)動(dòng)統(tǒng)計(jì)（GMS）[88]特征匹配方法來找到靜態(tài)特征位置。DMS-SLAM以O(shè)RB-SLAM 2.0系統(tǒng)為基礎(chǔ)，跟蹤ORB算法識(shí)別的靜態(tài)特征。作者在TUM RGB-D和KITTI數(shù)據(jù)集上測試了他們建議的方法，并優(yōu)于先進(jìn)的的VSLAM算法。此外，由于在跟蹤步驟中刪除了動(dòng)態(tài)目標(biāo)上的特征點(diǎn)，DMS-SLAM比原始的ORB-SLAM 2.0執(zhí)行得更快。盡管有上述優(yōu)點(diǎn)，但DMS-SLAM在紋理少、運(yùn)動(dòng)快和高度動(dòng)態(tài)環(huán)境的情況下會(huì)遇到困難。

目標(biāo)四：資源限制

在另一類中，與其他標(biāo)準(zhǔn)設(shè)備相比，一些VSLAM方法是為計(jì)算資源有限的設(shè)備構(gòu)建的。例如，為移動(dòng)設(shè)備和具有嵌入式系統(tǒng)的機(jī)器人設(shè)計(jì)的VSLAM系統(tǒng)就屬于這一類別。

1）處理能力有限的設(shè)備

在這方面，edgeSLAM是Xu等人提出的用于移動(dòng)和資源受限設(shè)備的實(shí)時(shí)、邊緣輔助語義VSLAM系統(tǒng)[89]。它采用了一系列細(xì)粒度模塊，由邊緣服務(wù)器和相關(guān)移動(dòng)設(shè)備使用，而不需要多線程。edgeSLAM中還包括基于Mask-RCNN技術(shù)的語義分割模塊，以改進(jìn)分割和目標(biāo)跟蹤。作者在一個(gè)邊緣服務(wù)器上安裝了一些商用移動(dòng)設(shè)備，如手機(jī)和開發(fā)板。通過重用目標(biāo)分割的結(jié)果，他們通過使系統(tǒng)參數(shù)適應(yīng)不同的網(wǎng)絡(luò)帶寬和延遲情況來避免重復(fù)處理。EdgeSLAM已在TUM RGB-D、KITTI的單目視覺實(shí)例和為實(shí)驗(yàn)設(shè)置創(chuàng)建的數(shù)據(jù)集上進(jìn)行了評(píng)估。

對(duì)于立體相機(jī)設(shè)置，Grisetti等人[90]提出了一種輕量級(jí)的基于特征的VSLAM框架，名為ProSLAM，其結(jié)果與先進(jìn)技術(shù)不相上下。四個(gè)模塊組成了他們的方法：triangulation模塊，它創(chuàng)建3D點(diǎn)和相關(guān)的特征描述子；增量運(yùn)動(dòng)估計(jì)模塊，其處理兩個(gè)幀以確定當(dāng)前位置；創(chuàng)建局部地圖的地圖管理模塊；以及基于局部地圖的相似性更新世界地圖的重新定位模塊。ProSLAM使用單個(gè)線程檢索點(diǎn)的3D位置，并利用少量已知庫來創(chuàng)建簡單的系統(tǒng)。根據(jù)KITTI和EuRoC數(shù)據(jù)集的實(shí)驗(yàn)，他們的方法可以獲得穩(wěn)健的結(jié)果。然而，它在旋轉(zhuǎn)估計(jì)方面表現(xiàn)出不足，并且不包含任何光束法平差模塊。其他相關(guān)算法VPS-SLAM[91]、[94]可以參考相關(guān)論文。

2）計(jì)算遷移

Ben Ali等人[96]建議使用邊緣計(jì)算將資源密集型操作遷移到云上，并減少機(jī)器人的計(jì)算負(fù)擔(dān)。他們?cè)谄溟g接框架Edge-SLAM中修改了ORB-SLAM 2.0的架構(gòu)，在機(jī)器人上維護(hù)了跟蹤模塊，并將剩余部分委派給邊緣。通過在機(jī)器人和邊緣設(shè)備之間拆分VSLAM流水線，系統(tǒng)可以維護(hù)局部和全局地圖。在可用資源較少的情況下，它們?nèi)匀豢梢栽诓粻奚鼫?zhǔn)確性的情況下正確運(yùn)行。[96]使用TUM RGB-D數(shù)據(jù)集和兩個(gè)不同的移動(dòng)設(shè)備，基于RGB-D相機(jī)生成定制的室內(nèi)環(huán)境數(shù)據(jù)集進(jìn)行評(píng)估。然而，該方法的缺點(diǎn)之一是由于各種SLAM模塊的解耦而導(dǎo)致架構(gòu)的復(fù)雜性。另一個(gè)問題是，系統(tǒng)僅在短期設(shè)置下工作，在長期場景（例如，多天）中使用Edge SLAM將面臨性能下降。

目標(biāo)五：彈性化（Versatility）

VSLAM在這一類中的工作側(cè)重于直接的開發(fā)、利用、適應(yīng)和擴(kuò)展。

在這方面，Sumikura等人[95]引入了OpenVSLAM，這是一個(gè)高度適應(yīng)性的開源VSLAM框架，旨在快速開發(fā)并被其他第三方程序調(diào)用。他們基于特征的方法與多種相機(jī)類型兼容，包括單目、立體和RGB-D，并且可以存儲(chǔ)或重用重建的地圖以供以后使用。由于其強(qiáng)大的ORB特征提取模塊，OpenVSLAM在跟蹤精度和效率方面優(yōu)于ORB-SLAM和ORB-SLAM2.0。然而，由于擔(dān)心代碼相似性侵犯了ORB-SLAM 2.0的權(quán)利，該系統(tǒng)的開源代碼已經(jīng)停止。

為了彌合實(shí)時(shí)能力、準(zhǔn)確性和彈性之間的差距，F(xiàn)errera等人[97]開發(fā)了OV2SLAM，可用于單目和立體視覺相機(jī)。通過將特征提取限制在關(guān)鍵幀中，并通過消除測光誤差在后續(xù)幀中對(duì)其進(jìn)行監(jiān)控，他們的方法減少了計(jì)算量。從這個(gè)意義上講，OV2SLAM是一種混合策略，它結(jié)合了VSLAM直接和間接方法的優(yōu)點(diǎn)。在室內(nèi)和室外實(shí)驗(yàn)中，使用包括EuRoC、KITTI和TartanAir在內(nèi)的著名基準(zhǔn)數(shù)據(jù)集，證明OV2SLAM在性能和準(zhǔn)確性方面優(yōu)于幾種流行技術(shù)。其他相關(guān)算法DROID-SLAM[98]、iRotate[99]可以參考相關(guān)論文。

目標(biāo)六：視覺里程計(jì)（Visual Odometry）

此類方法旨在以盡可能高的精度確定機(jī)器人的位置和方向。

1）深度神經(jīng)網(wǎng)絡(luò)

在這方面，[100]中提出了Dynamic-SLAM框架，該框架利用深度學(xué)習(xí)進(jìn)行準(zhǔn)確的姿態(tài)預(yù)測和適當(dāng)?shù)沫h(huán)境理解。作為優(yōu)化VO的語義級(jí)模塊的一部分，作者使用CNN來識(shí)別環(huán)境中的運(yùn)動(dòng)目標(biāo)，這有助于他們降低由不正確的特征匹配帶來的姿態(tài)估計(jì)誤差。此外，Dynamic-SLAM使用選擇性跟蹤模塊來忽略場景中的動(dòng)態(tài)位置，并使用缺失特征校正算法來實(shí)現(xiàn)相鄰幀中的速度不變性。盡管結(jié)果很好，但由于定義的語義類數(shù)量有限，該系統(tǒng)需要巨大的計(jì)算成本，并面臨動(dòng)態(tài)/靜態(tài)目標(biāo)誤分類的風(fēng)險(xiǎn)。

Bloesch等人[101]提出了Code-SLAM，它提供了場景幾何體的濃縮和密集表示。他們的VSLAM系統(tǒng)是PTAM的增強(qiáng)版[14]，該系統(tǒng)僅與單目攝像機(jī)一起工作。其將強(qiáng)度圖像劃分為卷積特征，并使用根據(jù)SceneNet RGB-D數(shù)據(jù)集的強(qiáng)度圖像訓(xùn)練的CNN將其饋送到深度自編碼器。EuRoC數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明，其結(jié)果在準(zhǔn)確性和性能方面很有希望。其他相關(guān)算法DeepVO[102]、[103]、DeepFactors[104]可以參考相關(guān)論文。

2）深度相鄰幀處理

在另一項(xiàng)工作中，[106]的作者通過減少用于攝像機(jī)運(yùn)動(dòng)檢測的兩幅圖像之間的光度和幾何誤差，為RGB-D攝像機(jī)開發(fā)了一種實(shí)時(shí)密集SLAM方法，改進(jìn)了他們先前的方法[107]。他們基于關(guān)鍵幀的解決方案擴(kuò)展了Pose SLAM[108]，它只保留非冗余姿態(tài)，以生成緊湊的地圖，增加了密集的視覺里程計(jì)特征，并有效地利用來自相機(jī)幀的信息進(jìn)行可靠的相機(jī)運(yùn)動(dòng)估計(jì)。作者還采用了一種基于熵的技術(shù)來度量關(guān)鍵幀的相似性，用于回環(huán)檢測和漂移避免。然而，他們的方法仍然需要在回環(huán)檢測和關(guān)鍵幀選擇質(zhì)量方面進(jìn)行工作。

在Li等人[109]介紹的另一項(xiàng)工作中，使用稱為DP-SLAM的基于特征的VSLAM方法實(shí)現(xiàn)實(shí)時(shí)動(dòng)態(tài)目標(biāo)移除。該方法使用基于從運(yùn)動(dòng)目標(biāo)導(dǎo)出的關(guān)鍵點(diǎn)的似然性的貝葉斯概率傳播模型。使用移動(dòng)概率傳播算法和迭代概率更新，DP-SLAM可以克服幾何約束和語義數(shù)據(jù)的變化。它與ORB-SLAM 2.0集成，并在TUM RGB-D數(shù)據(jù)集上進(jìn)行了測試。盡管結(jié)果準(zhǔn)確，但由于迭代概率更新模塊，該系統(tǒng)僅在稀疏VSLAM中工作，并且面臨較高的計(jì)算成本。其他相關(guān)算法[110]可以參考相關(guān)論文。

3）各種特征處理

此類別中的另一種方法是Li等人[111]提出的基于文本的VSLAM系統(tǒng)，稱為TextSLAM。它將使用FAST角點(diǎn)檢測技術(shù)從場景中檢索的文本項(xiàng)合并到SLAM管道中。文本包括各種紋理、圖案和語義，這使得使用它們創(chuàng)建高質(zhì)量3D文本地圖的方法更加有效。TextSLAM使用文本作為可靠的視覺基準(zhǔn)標(biāo)記，在找到文本的第一幀之后對(duì)其進(jìn)行參數(shù)化，然后將3D文本目標(biāo)投影到目標(biāo)圖像上以再次定位。他們還提出了一種新的三變量參數(shù)化技術(shù)，用于初始化瞬時(shí)文本特征。使用單目相機(jī)和作者創(chuàng)建的數(shù)據(jù)集，在室內(nèi)和室外環(huán)境中進(jìn)行了實(shí)驗(yàn)，結(jié)果非常準(zhǔn)確。在無文本環(huán)境中操作、解釋短字母以及需要存儲(chǔ)大量文本詞典是TextSLAM的三大基本挑戰(zhàn)。其他相關(guān)算法[43]、[112]可以參考相關(guān)論文。

確定當(dāng)前趨勢

統(tǒng)計(jì)數(shù)字

關(guān)于上述各方面調(diào)查論文的分類，論文將圖4中的處理數(shù)據(jù)可視化，以找出VSLAM的當(dāng)前趨勢。在子圖“a”中，可以看到，大多數(shù)擬議的VSLAM系統(tǒng)都是獨(dú)立的應(yīng)用程序，它們使用視覺傳感器從頭開始執(zhí)行定位和建圖的整個(gè)過程。雖然ORB-SLAM2.0和ORB-SLAM是用于構(gòu)建新框架的其他基礎(chǔ)平臺(tái)，但只有很少的方法基于其他VSLAM系統(tǒng)，如PTAM和PoseSLAM。此外，就VSLAM應(yīng)用程序的目標(biāo)而言，子圖“b”中最重要的是改進(jìn)視覺里程計(jì)模塊。因此，大多數(shù)最近的VSLAM都試圖解決當(dāng)前算法在確定機(jī)器人位置和方向方面的問題。姿態(tài)估計(jì)和真實(shí)世界生存能力是提出新的VSLAM論文的進(jìn)一步基本目標(biāo)。關(guān)于調(diào)查論文中用于評(píng)估的數(shù)據(jù)集，子圖“c”說明了大多數(shù)工作都在TUM RGB-D數(shù)據(jù)集上進(jìn)行了測試。此外，許多研究人員傾向于對(duì)他們生成的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。我們可以假設(shè)生成數(shù)據(jù)集的主要?jiǎng)訖C(jī)是展示VSLAM方法在真實(shí)場景中的工作方式，以及它是否可以作為端到端應(yīng)用程序使用。EuRoC MAV和KITTI分別是VSLAM工作中下一個(gè)流行的評(píng)估數(shù)據(jù)集。從子圖“d”中提取的另一個(gè)有趣信息涉及使用VSLAM系統(tǒng)時(shí)使用語義數(shù)據(jù)的影響。我們可以看到，大多數(shù)論文在處理環(huán)境時(shí)不包括語義數(shù)據(jù)。論文假設(shè)不使用語義數(shù)據(jù)的原因是：

在許多情況下，訓(xùn)練識(shí)別目標(biāo)并將其用于語義分割的模型的計(jì)算成本相當(dāng)大，這可能會(huì)增加處理時(shí)間；

大多數(shù)基于幾何的VSLAM算法被設(shè)計(jì)在即插即用的設(shè)備上工作，因此它們可以用最少的努力使用相機(jī)數(shù)據(jù)進(jìn)行定位和建圖；

從場景中提取的不正確信息也會(huì)導(dǎo)致過程中增加更多的噪聲。

當(dāng)考慮環(huán)境時(shí)，我們可以在子圖“e”中看到，一半以上的方法也可以在具有挑戰(zhàn)性的動(dòng)態(tài)環(huán)境中工作，而其余的系統(tǒng)只關(guān)注沒有動(dòng)態(tài)變化的環(huán)境。此外，在子圖“f”中，大多數(shù)方法都適用于“室內(nèi)環(huán)境”或“室內(nèi)和室外環(huán)境”，而其余的論文僅在室外條件下進(jìn)行了測試。應(yīng)當(dāng)指出的是，如果在其他情況下采用的方法只能在具有限制性假設(shè)的特定情況下工作，則可能不會(huì)產(chǎn)生相同的準(zhǔn)確性。這是一些方法只集中于特定情況的主要原因之一。

分析當(dāng)前趨勢

本文回顧了最先進(jìn)的視覺SLAM方法，這些方法吸引了大量關(guān)注，并展示了它們?cè)谠擃I(lǐng)域的主要貢獻(xiàn)。盡管在過去幾年中，VSLAM系統(tǒng)的各個(gè)模塊都有了廣泛的可靠解決方案和改進(jìn)，但仍有許多高潛力領(lǐng)域和未解決的問題需要在這些領(lǐng)域進(jìn)行研究，從而在SLAM的未來發(fā)展中采用更穩(wěn)健的方法。鑒于視覺SLAM方法的廣泛性，論文介紹以下開放的研究方向：

深度學(xué)習(xí)：深度神經(jīng)網(wǎng)絡(luò)在各種應(yīng)用中顯示出令人鼓舞的結(jié)果，包括VSLAM[15]，使其成為多個(gè)研究領(lǐng)域的一個(gè)重要趨勢。由于其學(xué)習(xí)能力，這些體系結(jié)構(gòu)已顯示出相當(dāng)大的潛力，可以用作可靠的特征提取器，以解決VO和回環(huán)檢測中的不同問題。CNN可以幫助VSLAM進(jìn)行精確的目標(biāo)檢測和語義分割，并且在正確識(shí)別人工設(shè)計(jì)的特征方面可以優(yōu)于傳統(tǒng)的特征提取和匹配算法。必須指出的是，由于基于深度學(xué)習(xí)的方法是在具有大量多樣數(shù)據(jù)和有限目標(biāo)類的數(shù)據(jù)集上進(jìn)行訓(xùn)練的，因此總是存在對(duì)動(dòng)態(tài)點(diǎn)進(jìn)行錯(cuò)誤分類并導(dǎo)致錯(cuò)誤分割的風(fēng)險(xiǎn)。因此，它可能導(dǎo)致較低的分割精度和姿態(tài)估計(jì)誤差。

信息檢索和計(jì)算成本權(quán)衡：通常情況下，處理成本和場景中的信息量應(yīng)始終保持平衡。從這個(gè)角度來看，密集地圖允許VSLAM應(yīng)用程序記錄高維完整場景信息，但實(shí)時(shí)這樣做將需要計(jì)算量。另一方面，稀疏表示由于其較低的計(jì)算成本，將無法捕獲所有需要的信息。還應(yīng)注意的是，實(shí)時(shí)性能與攝像機(jī)的幀速率直接相關(guān)，峰值處理時(shí)間的幀丟失會(huì)對(duì)VSLAM系統(tǒng)的性能產(chǎn)生負(fù)面影響，而與算法性能無關(guān)。此外，VSLAM通常利用緊耦合的模塊，修改一個(gè)模塊可能會(huì)對(duì)其他模塊產(chǎn)生不利影響，這使得平衡任務(wù)更具挑戰(zhàn)性。

語義分割：在創(chuàng)建環(huán)境地圖的同時(shí)提供語義信息可以為機(jī)器人帶來非常有用的信息。識(shí)別攝像機(jī)視場中的目標(biāo)（例如門、窗、人等）是當(dāng)前和未來VSLAM工作中的一個(gè)熱門話題，因?yàn)檎Z義信息可用于姿態(tài)估計(jì)、軌跡規(guī)劃和回環(huán)檢測模塊。隨著目標(biāo)檢測和跟蹤算法的廣泛使用，語義VSLAM無疑將成為該領(lǐng)域未來的解決方案之一。回環(huán)算法：任何SLAM系統(tǒng)中的關(guān)鍵問題之一是漂移問題，以及由于累積的定位誤差而導(dǎo)致的特征軌跡丟失。在VSLAM系統(tǒng)中，檢測漂移和回環(huán)以識(shí)別先前訪問過的位置會(huì)導(dǎo)致計(jì)算延遲和高成本[89]。主要原因是回環(huán)檢測的復(fù)雜度隨著重建地圖的大小而增加。此外，組合從不同地點(diǎn)收集的地圖數(shù)據(jù)并細(xì)化估計(jì)姿態(tài)是非常復(fù)雜的任務(wù)。因此，回環(huán)檢測模塊的優(yōu)化和平衡具有巨大的改進(jìn)空間。檢測回環(huán)的常見方法之一是通過基于局部特征訓(xùn)練視覺詞匯表，然后將其聚合來改進(jìn)圖像檢索。

在具有挑戰(zhàn)性的場景中工作：在沒有紋理的環(huán)境中工作，很少有顯著特征點(diǎn)，這通常會(huì)導(dǎo)致機(jī)器人的位置和方向出現(xiàn)漂移誤差。作為VSLAM的主要挑戰(zhàn)之一，此錯(cuò)誤可能導(dǎo)致系統(tǒng)故障。因此，在基于特征的方法中考慮互補(bǔ)的場景理解方法，例如目標(biāo)檢測或線條特征，將是一個(gè)熱門話題。

結(jié)論

本文介紹了一系列SLAM算法，其中從攝像機(jī)采集的視覺數(shù)據(jù)起著重要作用。論文根據(jù)VSLAM系統(tǒng)方法的各種特點(diǎn)，如實(shí)驗(yàn)環(huán)境、新穎領(lǐng)域、目標(biāo)檢測和跟蹤算法、語義級(jí)生存能力、性能等，對(duì)其最近的工作進(jìn)行了分類。論文還根據(jù)作者的主張、未來版本的改進(jìn)以及其他相關(guān)方法中解決的問題，回顧了相關(guān)算法的關(guān)鍵貢獻(xiàn)以及現(xiàn)有的缺陷和挑戰(zhàn)。本文的另一個(gè)貢獻(xiàn)是討論了VSLAM系統(tǒng)的當(dāng)前趨勢以及研究人員將更多研究的現(xiàn)有開放問題。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4811

瀏覽量
103081
應(yīng)用程序

應(yīng)用程序

+關(guān)注

關(guān)注
38

文章
3324

瀏覽量
58837
VSLAM

VSLAM

+關(guān)注

關(guān)注
0

文章
25

瀏覽量
4496

搜索歷史

VSLAM系統(tǒng)方法的各種特點(diǎn)

評(píng)論

電子發(fā)燒友