主要內(nèi)容:
提出了一種基于人類使用的2D語義圖以亞米精度定位圖像的算法,OrienterNet,通過將BEV圖與OpenStreetMap中開放可用的全局地圖相匹配來估計(jì)查詢圖像的位置和方向,使任何人都能夠在任何可用地圖的地方進(jìn)行定位。 OrienterNet只受相機(jī)姿態(tài)的監(jiān)督,學(xué)習(xí)以端到端的方式與各種地圖元素進(jìn)行語義匹配。引入了一個(gè)大規(guī)模的眾包圖像數(shù)據(jù)集,該數(shù)據(jù)集以汽車、自行車和行人的不同角度在12個(gè)城市進(jìn)行拍攝得到。
Motivation:
作為人類,我們直觀地理解我們所看到的局部場景和我們所處場景的全局地圖之間的關(guān)系。當(dāng)我們迷失在未知區(qū)域時(shí),我們可以通過使用不同的地理特征仔細(xì)比較地圖和周圍環(huán)境來準(zhǔn)確定位我們的位置。
傳統(tǒng)的視覺定位算法通常很復(fù)雜,其依賴于圖像匹配,并且需要冗余的3D點(diǎn)云和視覺描述子,而且使用激光雷達(dá)或攝影測量構(gòu)建3D地圖是昂貴的,并且需要更新數(shù)據(jù)來捕捉視覺外觀的變化,3D地圖的存儲(chǔ)成本也很高,因?yàn)樗鼈儽然镜?D地圖大幾個(gè)數(shù)量級(jí)。這些限制了其在移動(dòng)設(shè)備上執(zhí)行定位,現(xiàn)在的方法一般需要昂貴的云基礎(chǔ)設(shè)施。
這就引出了一個(gè)重要的問題:我們?nèi)绾蜗袢祟愐粯咏虣C(jī)器從基本的2D地圖進(jìn)行定位? 本文就根據(jù)這個(gè)問題提出了第一種方法,該方法可以在給定人類使用的相同地圖的情況下,以亞米精度定位單個(gè)圖像和圖像序列。
這些平面圖只對(duì)少數(shù)重要物體的位置和粗略的二維形狀進(jìn)行編碼,而不對(duì)其外觀和高度進(jìn)行編碼。這樣的地圖非常緊湊,尺寸比3D地圖小104倍,因此可以存儲(chǔ)在移動(dòng)設(shè)備上,并用于大區(qū)域內(nèi)的設(shè)備上定位。該解決方案也不需要隨著時(shí)間的推移構(gòu)建和維護(hù)昂貴的3D地圖,也不需要收集潛在的敏感地圖數(shù)據(jù)。
其算法估計(jì)2D地圖中圖像的3-DoF姿態(tài),位置和航向。
該估計(jì)是概率性的,因此可以在多相機(jī)設(shè)備或圖像序列的多個(gè)視圖之前或跨多個(gè)視圖與不準(zhǔn)確的GPS融合。所得到的解決方案比消費(fèi)級(jí)GPS傳感器準(zhǔn)確得多,并且基于特征匹配達(dá)到了接近傳統(tǒng)算法的精度水平。
使用的2D地圖與傳統(tǒng)地圖的區(qū)別:
Pipeline:
輸入:
輸入為具有已知相機(jī)內(nèi)參的圖像I。通過根據(jù)已知重力計(jì)算的單應(yīng)性對(duì)圖像進(jìn)行校正,使其roll和tilt為零,然后其主軸為水平。還有一個(gè)粗略的位置先驗(yàn)ξ。從OpenStreetMap查詢地圖數(shù)據(jù),將其作為以ξ先驗(yàn)為中心的正方形區(qū)域,其大小取決于先驗(yàn)的噪聲程度。數(shù)據(jù)由多邊形、線和點(diǎn)的集合組成,每個(gè)多邊形、線或點(diǎn)都屬于給定的語義類,其坐標(biāo)在同一局部參考系中給定。
OrienterNet由三個(gè)模塊組成:
1)圖像CNN從圖像中提取語義特征,并通過推斷場景的3D結(jié)構(gòu)將其提升為鳥瞰圖(BEV)表示
2) OSM map由map-CNN編碼為嵌入語義和幾何信息的神經(jīng)map F。
3) 通過將BEV與地圖進(jìn)行窮舉匹配來估計(jì)相機(jī)姿態(tài)ξ上的概率分布
論文技術(shù)點(diǎn):
鳥瞰圖BEV推理:
從一個(gè)圖像I中推斷一個(gè)BEV表示,其分布在與相機(jī)截頭體對(duì)齊的L×D的網(wǎng)格上,由N維特征組成,網(wǎng)格上每個(gè)特征都被賦予了一個(gè)置信度,有矩陣。
這種BEV表示類似于人類在地圖中自我定位時(shí)從環(huán)境中推斷出的心理地圖。
圖像和地圖之間的跨模態(tài)匹配需要從視覺線索中提取語義信息,算法依靠單目推理將語義特征提升到BEV空間,分兩步來獲得神經(jīng)BEV:
i)通過將圖像列映射到極射線來將圖像特征轉(zhuǎn)移到極坐標(biāo)表示
ii)將極坐標(biāo)網(wǎng)格重新采樣為笛卡爾網(wǎng)格
神經(jīng)map編碼:
將平面圖編碼為結(jié)合了幾何和語義的W×H神經(jīng)圖
?
Map data:OpenStreetMap元素根據(jù)其語義類定義為多邊形區(qū)域、多段線或單點(diǎn)。區(qū)域的例子包括建筑足跡、草地、停車場;線條包括道路或人行道中心線、建筑輪廓;點(diǎn)包括樹木、公交車站、商店等。這些元素提供了定位所需的幾何約束,而它們豐富的語義多樣性有助于消除不同姿勢的歧義。
預(yù)處理:首先將區(qū)域、線和點(diǎn)光柵化為具有固定地面采樣距離
▲(例如50cm/pixel)的3通道圖像。
編碼:將每個(gè)類與學(xué)習(xí)的N維嵌入相關(guān)聯(lián),生成W×H×3N的特征圖。然后通過一個(gè)CNN 將其編碼到神經(jīng)圖F中,其提取有助于定位的幾何特征。F不是歸一化的,因?yàn)槲覀冏對(duì)涤成鋵⑵浞稊?shù)調(diào)制為匹配中的重要權(quán)重。F通常看起來像一個(gè)距離場,在那里我們可以清楚地識(shí)別建筑物的角落或相鄰邊界等獨(dú)特特征。
基于模板匹配的姿態(tài)估計(jì):
概率體:
估計(jì)一個(gè)相機(jī)姿態(tài)ξ上的離散概率分布。這是可解釋的,并充分反映了估計(jì)的不確定性。因此在不明確的情況下,分布是多模式的。圖4顯示了各種示例。這樣就可以很容易地將姿態(tài)估計(jì)與GPS等附加傳感器相融合。計(jì)算這個(gè)體積是容易處理的,因?yàn)樽藙菘臻g已經(jīng)減少到三維。它被離散化為每個(gè)地圖位置和以規(guī)則間隔采樣的K個(gè)旋轉(zhuǎn)。 這產(chǎn)生了W×H×K概率體積P,使得
它是圖像-地圖匹配項(xiàng)M和位置先驗(yàn)的組合?:
圖像-地圖匹配:
將神經(jīng)map F和BEV T進(jìn)行窮舉匹配,得到分?jǐn)?shù)體M。通過將F與由相應(yīng)姿勢變換的T相關(guān)來計(jì)算每個(gè)元素,如:
其中ξ(p)將2D點(diǎn)p從BEV變換為地圖坐標(biāo)系。置信度C掩蓋相關(guān)性以忽略BEV空間的一些部分,例如被遮擋的區(qū)域。該公式得益于通過旋轉(zhuǎn)T K次并在傅立葉域中執(zhí)行作為分批乘法的單個(gè)卷積的有效實(shí)現(xiàn)。
姿態(tài)推斷: 通過最大似然估計(jì)單個(gè)姿態(tài):
。當(dāng)分布大多是單峰分布時(shí),可以獲得一個(gè)不確定性度量,作為P在ξ*周圍的協(xié)方差。
序列和多相機(jī)定位:
單圖像定位在幾乎沒有表現(xiàn)出獨(dú)特語義元素或重復(fù)模式的位置是模糊的。當(dāng)多個(gè)視圖的相對(duì)姿勢已知時(shí),可以通過在多個(gè)視圖上積累額外的線索來消除這種挑戰(zhàn)。這些視圖可以是來自VI SLAM的具有姿勢的圖像序列,也可以是來自校準(zhǔn)的多攝像機(jī)設(shè)備的同時(shí)視圖。圖5顯示了這樣一個(gè)困難場景的例子,通過隨著時(shí)間的推移累積預(yù)測來消除歧義。不同的幀在不同的方向上約束姿勢,例如在交叉點(diǎn)之前和之后。融合較長的序列會(huì)產(chǎn)生更高的精度(圖6)
將ξi表示為視圖i的未知絕對(duì)姿態(tài),將ξij表示為視圖j到i的已知相對(duì)姿態(tài)。對(duì)于任意參考視圖i,將所有單視圖預(yù)測的聯(lián)合似然表示為:
其中
表示姿勢合成運(yùn)算符。這是通過將每個(gè)概率體積Pj扭曲到參考幀i來有效計(jì)算的。也可以通過迭代扭曲和歸一化來定位連續(xù)流的每個(gè)圖像,就像經(jīng)典的馬爾可夫定位一樣。
實(shí)驗(yàn):
在駕駛和AR的背景下評(píng)估了定位模型。圖4顯示了定性示例,而圖5說明了多幀融合的有效性。
實(shí)驗(yàn)表明:
1)OrienterNet在2D地圖定位方面比現(xiàn)有的深度網(wǎng)絡(luò)更有效;
2) 平面圖比衛(wèi)星圖像更準(zhǔn)確地定位;
3) 在考慮多個(gè)視圖時(shí),OrienterNet比嵌入式消費(fèi)級(jí)GPS傳感器準(zhǔn)確得多。
在MGL數(shù)據(jù)集的驗(yàn)證拆分上評(píng)估了OrienterNet的設(shè)計(jì)。這確保了攝像機(jī)、動(dòng)作、觀看條件和視覺特征的分布與訓(xùn)練集相同。報(bào)告了三個(gè)閾值1/3/5m和1/3/5°時(shí)的位置和旋轉(zhuǎn)誤差的召回
使用KITTI數(shù)據(jù)集考慮駕駛場景中的定位。為了評(píng)估零樣本性能使用了他們的Test2分割,該分割與KITTI和MGL訓(xùn)練集不重疊。圖像由安裝在城市和住宅區(qū)行駛的汽車上的攝像頭拍攝,并具有RTK的GT姿勢。使用OSM map來擴(kuò)充數(shù)據(jù)集。
用于增強(qiáng)現(xiàn)實(shí)(AR)的頭戴式設(shè)備的定位。 因?yàn)闆]有公共基準(zhǔn)可以為在不同的戶外空間使用AR設(shè)備拍攝的圖像提供地理對(duì)齊的GT姿勢。因此用Aria眼鏡記錄了自己的數(shù)據(jù)集。它展示了AR的典型模式,帶有嘈雜的消費(fèi)者級(jí)傳感器和行人的視角和動(dòng)作。 包括兩個(gè)地點(diǎn):i)西雅圖市中心,有高層建筑;ii)底特律,有城市公園和較低的建筑。記錄了每個(gè)城市的幾個(gè)圖像序列,所有圖像序列都大致遵循多個(gè)街區(qū)的相同循環(huán)。
記錄每幅校準(zhǔn)的RGB圖像和GPS測量值,并從離線專有的VI SLAM系統(tǒng)中獲得相對(duì)姿態(tài)和重力方向。通過基于GPS、VI約束和OrienterNet的預(yù)測聯(lián)合優(yōu)化所有序列來獲得偽GT全局姿態(tài)。
總結(jié):
OrienterNet是第一個(gè)深度神經(jīng)網(wǎng)絡(luò),可以在人類使用的2D平面圖中以亞米精度定位圖像。OrienterNet通過將輸入地圖與源自視覺觀察的心理地圖相匹配,模仿人類在環(huán)境中定位自己的方式。與機(jī)器迄今為止所依賴的大型且昂貴的3D地圖相比,這種2D地圖非常緊湊,因此最終能夠在大型環(huán)境中進(jìn)行設(shè)備上定位。OrienterNet基于OpenStreetMap的全球免費(fèi)地圖,任何人都可以使用它在世界任何地方進(jìn)行定位。
審核編輯:劉清
-
傳感器
+關(guān)注
關(guān)注
2552文章
51366瀏覽量
755716 -
gps
+關(guān)注
關(guān)注
22文章
2900瀏覽量
166504
原文標(biāo)題:ETH最新工作:基于神經(jīng)匹配的二維地圖視覺定位(CVPR2023)
文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論