今天為什么又講SLAM呢?主要是國內(nèi)有公司宣布要趟這個(gè)坑。在美國那頭,AR云也正是領(lǐng)域里比較熱門的一個(gè)方向。在很多做AR云的方向的公司的想象中的AR云,也大多是以SLAM作為基礎(chǔ)的。大家怎么看?歡迎留言討論
眾所周知,SLAM,即同時(shí)定位與地圖構(gòu)建,主要解決在未知環(huán)境中,如何進(jìn)行自身方位的定位,并同時(shí)構(gòu)建三維環(huán)境的地圖。它是機(jī)器人和計(jì)算機(jī)視覺領(lǐng)域的一個(gè)基本問題,基本上,需要定位和三維感知的應(yīng)用都需要用到SLAM技術(shù)。然而,最近幾年中,SLAM技術(shù)幾乎沒有什么變化。
最近,倫敦帝國學(xué)院的 Andrew Davison 發(fā)表了一篇論文,主要闡述由于增強(qiáng)現(xiàn)實(shí)眼鏡或機(jī)器人等設(shè)備所要求的視覺感知性能與現(xiàn)實(shí)產(chǎn)品的實(shí)際條件之間存在的巨大差距,而對未來空間人工智能算法的計(jì)算結(jié)構(gòu)和硬件開發(fā)方面的探索。
Andrew Davison最知名的成就是其 2003 年的 MonoSLAM 系統(tǒng),而且他是第一個(gè)展示如何在單個(gè)攝像頭上構(gòu)建 SLAM 系統(tǒng)的人,而那時(shí)候其他所有人都還認(rèn)為打造 SLAM 系統(tǒng)需要一個(gè)立體的雙目攝像頭套件。
舉個(gè)例子來說,想象一下未來的AR系統(tǒng)應(yīng)該具有怎樣的空間記憶能力,對于用戶所到達(dá)的地點(diǎn),遇到的人和物體,用戶在空間中放置的虛擬筆記或其他注釋等等都要有所記錄。另外,為了實(shí)現(xiàn)廣泛應(yīng)用,該設(shè)備應(yīng)該具備標(biāo)準(zhǔn)眼鏡的尺寸和重量,整天無需電池充電即可運(yùn)行。
顯然,這種理想中的AR系統(tǒng)依靠現(xiàn)在的設(shè)備和算法是遠(yuǎn)遠(yuǎn)達(dá)不到的,這篇論文也就是闡述對于現(xiàn)在的硬件和算法可能的優(yōu)化方向。
現(xiàn)在的SLAM技術(shù),大多是所謂的閉環(huán)SLAM,即從攝像頭和傳感器捕捉新圖像數(shù)據(jù)后,系統(tǒng)與當(dāng)前的世界模型進(jìn)行比較,進(jìn)行對當(dāng)前世界模型的更新。而當(dāng)前的世界模型,則來源于更早一次同樣的更新。
這種方法所有獲得的有用數(shù)據(jù),都來源于傳感器(如深度攝像頭),最終在實(shí)時(shí)循環(huán)中用于數(shù)據(jù)關(guān)聯(lián)和跟蹤。
而論文中提到一種新的混合型SLAM系統(tǒng),把SLAM 作為卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的補(bǔ)充:SLAM 關(guān)注于幾何問題,而深度學(xué)習(xí)是感知、識別問題的大師。如果你想要一個(gè)能走到你的冰箱面前而不撞到墻壁的機(jī)器人,那就使用 SLAM。如果你想要一個(gè)能識別冰箱中的物品的機(jī)器人,那就使用卷積神經(jīng)網(wǎng)絡(luò)。這種系統(tǒng)同樣適用在前面提到的閉環(huán)輸出,表現(xiàn)可能會更好。
未來大多數(shù)計(jì)算可能會涉及世界模型的塑造,這就要求一個(gè)不斷地改變和改進(jìn)數(shù)據(jù)存儲的系統(tǒng)。在此系統(tǒng)中,一些主要的計(jì)算元素有:
標(biāo)注:對圖像進(jìn)行經(jīng)驗(yàn)性標(biāo)注(例如CNN)。
渲染:從世界獲得密集的預(yù)測,并映射到圖像空間。
跟蹤:將預(yù)測與新圖像數(shù)據(jù)對齊,包括尋找離群值和檢測獨(dú)立運(yùn)動。
融合:將更新的幾何圖形和標(biāo)簽重新融合
地圖。
地圖合并:將元素融合到對象中,使元素平滑,正規(guī)化。
重新定位/閉環(huán)檢測:檢測總地圖中的相似性。
映射一致性優(yōu)化,即緊固閉環(huán)。
自我學(xué)習(xí):系統(tǒng)從運(yùn)行中進(jìn)行自我學(xué)習(xí)
原文:這是一個(gè)可視化AlexNet圖像分類CNN的結(jié)果,支持訓(xùn)練和運(yùn)行時(shí)操作,其中空間配置和著色表示不同的緊密連接需要處理模型。(不明白也沒關(guān)系,這只是論文中談到世界模型時(shí)提到的例子)
隨著技術(shù)工藝的進(jìn)步,摩爾定律的瓶頸似乎開始出現(xiàn),追求單核更大功率的處理器還是比較困難的,而在SLAM中, 單指令,多線程GPU提供的并行性,也非常適合實(shí)時(shí)視覺的計(jì)算要求。
因此,論文預(yù)測,系統(tǒng)將具備異構(gòu),多元素,專業(yè)化的架構(gòu),在這個(gè)架構(gòu)中,低功率運(yùn)行必須與高功率一起實(shí)現(xiàn),而由于架構(gòu)的靈活性和其中數(shù)量巨大的CPU和GPU,可以提高系統(tǒng)中運(yùn)行的有用軟件的數(shù)量。但是,它也可能會優(yōu)化一些專門的處理器,進(jìn)而實(shí)現(xiàn)低功耗實(shí)時(shí)視覺。當(dāng)然,專門為這種架構(gòu)設(shè)計(jì)的系統(tǒng)算法也會出現(xiàn),以期提高效率。
另外,云計(jì)算資源的容量可能將繼續(xù)擴(kuò)大,未來的系統(tǒng)可能大部分時(shí)間都是云連接的。主地圖將存儲在云中, 設(shè)備將根據(jù)需要在其中輸出數(shù)據(jù)。這種情況下,每個(gè)設(shè)備需要做的事情都理論上會大大減少。但這就需要高幀率傳輸?shù)闹С?,而后者也是比較難解決的問題。
對于傳感器而言,傳感器得到的數(shù)據(jù)龐大然而存在冗余,舉例來說,圖片中相鄰像素之間的數(shù)據(jù)有可能非常相似,相鄰兩幀圖片的信息也有可能很相似。所以有時(shí)龐大的數(shù)據(jù)處理并不必要。
因此,論文中提出一種簡化數(shù)據(jù)的方法,將所有傳感器接入一個(gè)總處理器中進(jìn)行預(yù)處理,但考慮到散熱等問題,又改為在傳感器單元中嵌入簡易的處理器,從而簡化數(shù)據(jù),得到更高的效率。
論文中還表示,從長遠(yuǎn)來看,SLAM由于其實(shí)時(shí)性和廣泛的實(shí)用性,不同應(yīng)用的輸出和性能水平不同,特別難以通過像數(shù)據(jù)集評估之類的手段確定一個(gè)SLAM的基準(zhǔn)。因此SLAM的基準(zhǔn)應(yīng)該走向預(yù)測可能需要執(zhí)行的任務(wù)的一般化標(biāo)準(zhǔn)。其中可能的指標(biāo)包括:
?新探索的區(qū)域中的局部姿態(tài)準(zhǔn)確性(視覺
里程漂移率)。
?良好映射的長期度量姿態(tài)重復(fù)性區(qū)域。
?跟蹤魯棒性百分比。
?重新定位魯棒性百分比。
?SLAM系統(tǒng)延遲。
?每個(gè)像素的密集距離預(yù)測精度。
?對象分割的準(zhǔn)確性。
?對象分類準(zhǔn)確性。
?AR像素配準(zhǔn)精度。
?場景變化檢測精度。
?電力使用情況。
?數(shù)據(jù)移動
總之,作者認(rèn)為,由于SLAM的在各個(gè)領(lǐng)域中的重要性,對SLAM的研究仍將保持下去,在這些方面越來越優(yōu)化。
這篇論文是建立在作者對大部分現(xiàn)有的SLAM技術(shù)和困難了解的基礎(chǔ)上完成的一個(gè)總結(jié),比較有參考價(jià)值。對原文感興趣的同學(xué)也可以戳閱讀原文下載
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100778 -
人工智能
+關(guān)注
關(guān)注
1791文章
47282瀏覽量
238534 -
SLAM
+關(guān)注
關(guān)注
23文章
424瀏覽量
31834
發(fā)布評論請先 登錄
相關(guān)推薦
評論