一般來(lái)講,SLAM系統(tǒng)通常都包含多種傳感器和多種功能模塊。而按照核心的功能模塊來(lái)區(qū)分,目前常見(jiàn)的機(jī)器人SLAM系統(tǒng)一般具有兩種形式:基于激光雷達(dá)的SLAM(激光SLAM)和基于視覺(jué)的SLAM(Visual SLAM或VSLAM)。
同時(shí)定位與地圖構(gòu)建(Simultaneous Localization And Mapping,簡(jiǎn)稱(chēng)SLAM),通常是指在機(jī)器人或者其他載體上,通過(guò)對(duì)各種傳感器數(shù)據(jù)進(jìn)行采集和計(jì)算,生成對(duì)其自身位置姿態(tài)的定位和場(chǎng)景地圖信息的系統(tǒng)。SLAM技術(shù)對(duì)于機(jī)器人或其他智能體的行動(dòng)和交互能力至為關(guān)鍵,因?yàn)樗砹诉@種能力的基礎(chǔ):知道自己在哪里,知道周?chē)h(huán)境如何,進(jìn)而知道下一步該如何自主行動(dòng)。它在自動(dòng)駕駛、服務(wù)型機(jī)器人、無(wú)人機(jī)、AR/VR等領(lǐng)域有著廣泛的應(yīng)用,可以說(shuō)凡是擁有一定行動(dòng)能力的智能體都擁有某種形式的SLAM系統(tǒng)。
一般來(lái)講,SLAM系統(tǒng)通常都包含多種傳感器和多種功能模塊。而按照核心的功能模塊來(lái)區(qū)分,目前常見(jiàn)的機(jī)器人SLAM系統(tǒng)一般具有兩種形式:基于激光雷達(dá)的SLAM(激光SLAM)和基于視覺(jué)的SLAM(Visual SLAM或VSLAM)。
激光SLAM簡(jiǎn)介
激光SLAM脫胎于早期的基于測(cè)距的定位方法(如超聲和紅外單點(diǎn)測(cè)距)。激光雷達(dá)(Light Detection And Ranging)的出現(xiàn)和普及使得測(cè)量更快更準(zhǔn),信息更豐富。激光雷達(dá)采集到的物體信息呈現(xiàn)出一系列分散的、具有準(zhǔn)確角度和距離信息的點(diǎn),被稱(chēng)為點(diǎn)云。通常,激光SLAM系統(tǒng)通過(guò)對(duì)不同時(shí)刻兩片點(diǎn)云的匹配與比對(duì),計(jì)算激光雷達(dá)相對(duì)運(yùn)動(dòng)的距離和姿態(tài)的改變,也就完成了對(duì)機(jī)器人自身的定位。
激光雷達(dá)距離測(cè)量比較準(zhǔn)確,誤差模型簡(jiǎn)單,在強(qiáng)光直射以外的環(huán)境中運(yùn)行穩(wěn)定,點(diǎn)云的處理也比較容易。同時(shí),點(diǎn)云信息本身包含直接的幾何關(guān)系,使得機(jī)器人的路徑規(guī)劃和導(dǎo)航變得直觀。激光SLAM理論研究也相對(duì)成熟,落地產(chǎn)品更豐富。
圖1,激光SLAM的地圖構(gòu)建(谷歌Cartographer[1])
VSLAM簡(jiǎn)介
眼睛是人類(lèi)獲取外界信息的主要來(lái)源。視覺(jué)SLAM也具有類(lèi)似特點(diǎn),它可以從環(huán)境中獲取海量的、富于冗余的紋理信息,擁有超強(qiáng)的場(chǎng)景辨識(shí)能力。早期的視覺(jué)SLAM基于濾波理論,其非線性的誤差模型和巨大的計(jì)算量成為了它實(shí)用落地的障礙。近年來(lái),隨著具有稀疏性的非線性優(yōu)化理論(Bundle Adjustment)以及相機(jī)技術(shù)、計(jì)算性能的進(jìn)步,實(shí)時(shí)運(yùn)行的視覺(jué)SLAM已經(jīng)不再是夢(mèng)想。
通常,一個(gè)VSLAM系統(tǒng)由前端和后端組成(圖2)。前端負(fù)責(zé)通過(guò)視覺(jué)增量式計(jì)算機(jī)器人的位姿,速度較快。后端,主要負(fù)責(zé)兩個(gè)功能:
一是在出現(xiàn)回環(huán)(即判定機(jī)器人回到了之前訪問(wèn)過(guò)的地點(diǎn)附近)時(shí),發(fā)現(xiàn)回環(huán)并修正兩次訪問(wèn)中間各處的位置與姿態(tài);
二是當(dāng)前端跟蹤丟失時(shí),根據(jù)視覺(jué)的紋理信息對(duì)機(jī)器人進(jìn)行重新定位。簡(jiǎn)單說(shuō),前端負(fù)責(zé)快速定位,后端負(fù)責(zé)較慢的地圖維護(hù)。
VSLAM的優(yōu)點(diǎn)是它所利用的豐富紋理信息。例如兩塊尺寸相同內(nèi)容卻不同的廣告牌,基于點(diǎn)云的激光SLAM算法無(wú)法區(qū)別他們,而視覺(jué)則可以輕易分辨。這帶來(lái)了重定位、場(chǎng)景分類(lèi)上無(wú)可比擬的巨大優(yōu)勢(shì)。同時(shí),視覺(jué)信息可以較為容易的被用來(lái)跟蹤和預(yù)測(cè)場(chǎng)景中的動(dòng)態(tài)目標(biāo),如行人、車(chē)輛等,對(duì)于在復(fù)雜動(dòng)態(tài)場(chǎng)景中的應(yīng)用這是至關(guān)重要的。第三,視覺(jué)的投影模型理論上可以讓無(wú)限遠(yuǎn)處的物體都進(jìn)入視覺(jué)畫(huà)面中,在合理的配置下(如長(zhǎng)基線的雙目相機(jī))可以進(jìn)行很大尺度場(chǎng)景的定位與地圖構(gòu)建。
圖2,視覺(jué)SLAM的前端定位與后端地圖維護(hù)(ORB-SLAM2[2])
接下來(lái)我們將在細(xì)分項(xiàng)目上比較激光SLAM和VSLAM。
應(yīng)用場(chǎng)景
在應(yīng)用場(chǎng)景上,激光SLAM依據(jù)所使用的激光雷達(dá)的檔次基本被分為涇渭分明的室內(nèi)應(yīng)用和室外應(yīng)用,而VSLAM在室內(nèi)外都有豐富的應(yīng)用環(huán)境。VSLAM的主要挑戰(zhàn)是光照變化,例如在室外正午和夜間的跨時(shí)間定位與地圖構(gòu)建,其工作穩(wěn)定性不如高端室外多線激光雷達(dá)。近年來(lái),光照模型修正和基于深度學(xué)習(xí)的高魯棒性特征點(diǎn)被廣泛應(yīng)用于視覺(jué)SLAM的研究中,體現(xiàn)出良好的效果,應(yīng)當(dāng)說(shuō)VSLAM隨著這些技術(shù)的進(jìn)步將會(huì)在光照變化的環(huán)境中擁有更穩(wěn)定的表現(xiàn)。
影響穩(wěn)定工作的因素
激光SLAM不擅長(zhǎng)動(dòng)態(tài)環(huán)境中的定位,比如有大量人員遮擋其測(cè)量的環(huán)境,也不擅長(zhǎng)在類(lèi)似的幾何環(huán)境中工作,比如在一個(gè)又長(zhǎng)又直、兩側(cè)是墻壁的環(huán)境。由于重定位能力較差,激光SLAM在追蹤丟失后很難重新回到工作狀態(tài)。而視覺(jué)SLAM在無(wú)紋理環(huán)境(比如面對(duì)整潔的白墻面),以及光照特別弱的環(huán)境中,表現(xiàn)較差。
定位和地圖構(gòu)建精度
在靜態(tài)且簡(jiǎn)單的環(huán)境中,激光SLAM定位總體來(lái)講優(yōu)于視覺(jué)SLAM;但在較大尺度且動(dòng)態(tài)的環(huán)境中,視覺(jué)SLAM因?yàn)槠渚哂械募y理信息,表現(xiàn)出更好的效果。在地圖構(gòu)建上,激光SLAM的特點(diǎn)是單點(diǎn)和單次測(cè)量都更精確,但地圖信息量更小;視覺(jué)SLAM特別是通過(guò)三角測(cè)距計(jì)算距離的方法,在單點(diǎn)和單次測(cè)量精度上表現(xiàn)總體來(lái)講不如激光雷達(dá),但可以通過(guò)重復(fù)觀測(cè)反復(fù)提高精度,同時(shí)擁有更豐富的地圖信息。
累計(jì)誤差問(wèn)題
激光SLAM總體來(lái)講較為缺乏回環(huán)檢測(cè)的能力,累計(jì)誤差的消除較為困難。而視覺(jué)SLAM使用了大量冗余的紋理信息,回環(huán)檢測(cè)較為容易,即使在前端累計(jì)一定誤差的情況下仍能通過(guò)回環(huán)修正將誤差消除。
傳感器成本
激光雷達(dá)事實(shí)上有許多檔次,成本都高于視覺(jué)傳感器。最昂貴如Velodyne的室外遠(yuǎn)距離多線雷達(dá)動(dòng)輒數(shù)十萬(wàn)元人民幣,而室外使用的高端中遠(yuǎn)距離平面雷達(dá)如SICK和Hokuyo大約在數(shù)萬(wàn)元人民幣的等級(jí)。室內(nèi)應(yīng)用較廣的中低端近距離平面激光雷達(dá)也需要千元級(jí)—,其價(jià)格相當(dāng)于比較高端的工業(yè)級(jí)攝像頭和感光芯片。激光雷達(dá)量產(chǎn)后成本可能會(huì)大幅下降,但能否降到同檔次攝像頭的水平仍有一個(gè)大大的問(wèn)號(hào)。
傳感器安裝和穩(wěn)定性
目前常見(jiàn)的激光雷達(dá)都是旋轉(zhuǎn)掃描式的,內(nèi)部長(zhǎng)期處于旋轉(zhuǎn)中的機(jī)械結(jié)構(gòu)會(huì)給系統(tǒng)帶來(lái)不穩(wěn)定性,在顛簸震動(dòng)時(shí)影響尤其明顯。而攝像頭不包含運(yùn)動(dòng)機(jī)械結(jié)構(gòu),對(duì)空間要求更低,可以在更多的場(chǎng)景下安裝使用(圖3)。不過(guò),固態(tài)激光雷達(dá)的逐步成熟可能會(huì)為激光SLAM扳回這項(xiàng)劣勢(shì)。
圖3 激光雷達(dá)和視覺(jué)系統(tǒng)的安裝應(yīng)用。谷歌無(wú)人車(chē)上的多線激光雷達(dá)
DJI精靈4上的視覺(jué)系統(tǒng)
算法難度
激光SLAM由于其研究的成熟以及誤差模型的相對(duì)簡(jiǎn)單,在算法上門(mén)檻更低,部分開(kāi)源算法甚至已經(jīng)被納入了ROS系統(tǒng)成為了標(biāo)配。而反觀視覺(jué)SLAM,首先圖像處理本身就是一門(mén)很深的學(xué)問(wèn),而基于非線性優(yōu)化的地圖構(gòu)建上也是非常復(fù)雜和耗時(shí)的計(jì)算問(wèn)題?,F(xiàn)在已經(jīng)有許多優(yōu)秀的開(kāi)源算法(如ORB-SLAM[2]、LSD-SLAM[3]),但在實(shí)際環(huán)境中優(yōu)化和改進(jìn)現(xiàn)有的視覺(jué)SLAM框架,比如加入光照模型、使用深度學(xué)習(xí)提取的特征點(diǎn)、以及使用單雙目及多目融合視角等技術(shù),將是視覺(jué)SLAM進(jìn)一步提升性能和實(shí)用性的必由之路。這些技術(shù)的算法門(mén)檻也遠(yuǎn)遠(yuǎn)高于激光SLAM。
計(jì)算需求
毫無(wú)疑問(wèn),激光SLAM的計(jì)算性能需求大大低于視覺(jué)SLAM。主流的激光SLAM可以在普通ARM CPU上實(shí)時(shí)運(yùn)行,而視覺(jué)SLAM基本都需要較為強(qiáng)勁的準(zhǔn)桌面級(jí)CPU或者GPU支持。但業(yè)界也看到了這其中蘊(yùn)藏的巨大機(jī)會(huì),為視覺(jué)處理定制的ASICS市場(chǎng)已經(jīng)蠢蠢欲動(dòng)。一個(gè)很好的例子是Intel旗下的Movidius,他們?cè)O(shè)計(jì)了一種特殊的架構(gòu)來(lái)進(jìn)行圖像、視頻與深度神經(jīng)網(wǎng)絡(luò)的處理,在瓦級(jí)的超低功耗下達(dá)到桌面級(jí)GPU才擁有的吞吐量。DJI的精靈4系列產(chǎn)品就是使用這類(lèi)專(zhuān)用芯片,實(shí)現(xiàn)了高速低功耗的視覺(jué)計(jì)算,為無(wú)人機(jī)避障和近地面場(chǎng)景導(dǎo)航提供根據(jù)。
多機(jī)協(xié)作
視覺(jué)主要是被動(dòng)探測(cè),不存在多機(jī)器人干擾問(wèn)題。而激光雷達(dá)主動(dòng)發(fā)射,在較多機(jī)器人時(shí)可能產(chǎn)生干擾。尤其是固態(tài)激光雷達(dá)的大量使用,可能使得場(chǎng)景中充滿了信號(hào)污染,從而影響激光SLAM的效果。
未來(lái)趨勢(shì)
激光SLAM和視覺(jué)SLAM各擅勝場(chǎng),單獨(dú)使用都有其局限性,而融合使用則可能具有巨大的取長(zhǎng)補(bǔ)短的潛力。例如,視覺(jué)在紋理豐富的動(dòng)態(tài)環(huán)境中穩(wěn)定工作,并能為激光SLAM提供非常準(zhǔn)確的點(diǎn)云匹配,而激光雷達(dá)提供的精確方向和距離信息在正確匹配的點(diǎn)云上會(huì)發(fā)揮更大的威力(圖4)。而在光照嚴(yán)重不足或紋理缺失的環(huán)境中,激光SLAM的定位工作使得視覺(jué)可以借助不多的信息進(jìn)行場(chǎng)景記錄。
圖4,KITTI數(shù)據(jù)集視覺(jué)里程計(jì)。ORB-SLAM[2],雙目視覺(jué)
V-LOAM[4],視覺(jué)引導(dǎo)激光修正
現(xiàn)實(shí)中的激光與視覺(jué)SLAM系統(tǒng)幾乎都會(huì)配備慣性元件、輪機(jī)里程計(jì)、衛(wèi)星定位系統(tǒng)、室內(nèi)基站定位系統(tǒng)等輔助定位工具,而近年來(lái)SLAM系統(tǒng)與其他傳感器的融合成為了一大熱點(diǎn)。不同于以往基于卡爾曼濾波的松耦合融合方法,現(xiàn)在學(xué)界的熱點(diǎn)是基于非線性優(yōu)化的緊耦合融合。例如與IMU的融合和實(shí)時(shí)相互標(biāo)定,使得激光或視覺(jué)模塊在機(jī)動(dòng) (猛烈加減速和旋轉(zhuǎn)) 時(shí)可以保持一定的定位精度,防止跟蹤丟失,極大的提高定位與地圖構(gòu)建的穩(wěn)定性。
激光點(diǎn)云信息本身也仍有潛力可挖。在高端的遠(yuǎn)距離多線激光雷達(dá)上,返回的點(diǎn)云除了包含方向和距離信息,還可以加入目標(biāo)點(diǎn)的反射率信息。當(dāng)線數(shù)較多較密時(shí),由反射率信息構(gòu)成的數(shù)據(jù)可以視為一種紋理信息,因此可以在一定程度上享受視覺(jué)算法和紋理信息帶來(lái)的重定位等方面的優(yōu)勢(shì)。這些信息一旦融入到高精度地圖中,高精度地圖就可以在點(diǎn)云紋理兩種形式間無(wú)縫切換,使得利用高精度地圖的定位可以被只擁有廉價(jià)攝像頭的自動(dòng)駕駛汽車(chē)分享。這也是目前國(guó)外一些團(tuán)隊(duì)的研究方向([5])。
同時(shí),視覺(jué)所依賴的投影模型,蘊(yùn)含著非常豐富的“混搭”玩法。長(zhǎng)、短基線的單雙目結(jié)合,可以在保證大尺度定位水平的同時(shí)提高中近距離的障礙探測(cè)和地圖構(gòu)建精度;廣角魚(yú)眼和360度全向攝像頭與標(biāo)準(zhǔn)單雙目的結(jié)合,使得VSLAM的覆蓋范圍可以進(jìn)一步提升,特別適合對(duì)場(chǎng)景按照距離的遠(yuǎn)近進(jìn)行不同精度不同速度的定位。被動(dòng)視覺(jué)與深度相機(jī)的結(jié)合,催生了RGB-D SLAM,而深度相機(jī)量程的逐步擴(kuò)大,將給這種特殊VSLAM帶來(lái)更大的應(yīng)用空間。
VSLAM的另一個(gè)也許更宏大的擴(kuò)展在AI端。端到端的深度學(xué)習(xí)所帶來(lái)的圖像特征,已經(jīng)在識(shí)別和分類(lèi)領(lǐng)域大大超越了人類(lèi)手工選擇的SIFT/SURF/ORB等特征。我們可以很安全的說(shuō),未來(lái)在低紋理、低光照等環(huán)境下,深度學(xué)習(xí)所訓(xùn)練出的提取、匹配和定位估算等方法,也一定會(huì)超越目前VSLAM領(lǐng)域最先進(jìn)的手工方法。更不用說(shuō),圖像本身所大量攜帶的信息,可以廣泛用于場(chǎng)景理解、場(chǎng)景分類(lèi)、物體識(shí)別、行為預(yù)測(cè)等重要方面。一個(gè)很可能的情況是,未來(lái)視覺(jué)處理系統(tǒng)將直接包含定位、地圖構(gòu)建、運(yùn)動(dòng)規(guī)劃、場(chǎng)景理解以及交互等多個(gè)功能模塊,更緊密的聯(lián)合帶來(lái)更加智能的機(jī)器人行動(dòng)能力。
如果想深入了解SLAM技術(shù)的過(guò)去、現(xiàn)在和未來(lái)趨勢(shì),我們推薦文獻(xiàn)[6]。
結(jié)語(yǔ)
SLAM技術(shù)將賦予為機(jī)器人和智能體前所未有的行動(dòng)能力。作為當(dāng)前SLAM框架的主要類(lèi)型,激光SLAM與視覺(jué)SLAM必將在相互競(jìng)爭(zhēng)和融合中發(fā)展,必將帶來(lái)機(jī)器人技術(shù)和人工智能技術(shù)的真正革命,也將使得機(jī)器人從實(shí)驗(yàn)室和展示廳中走出來(lái),真正服務(wù)和解放人類(lèi)。
-
激光
+關(guān)注
關(guān)注
19文章
3201瀏覽量
64477 -
SLAM
+關(guān)注
關(guān)注
23文章
424瀏覽量
31833
原文標(biāo)題:激光SLAM與視覺(jué)SLAM的現(xiàn)狀與趨勢(shì)
文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車(chē)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論