作者:Zhuo Song, Chuting Wang2, Yuqian Liu3, Shuhan Shen
一、 引言
估計(jì)圖像相對(duì)于 3D 場景模型的 6-DOF相機(jī)位姿是近年來許多計(jì)算機(jī)視覺和機(jī)器人任務(wù)中的基本問題,如增強(qiáng)現(xiàn)實(shí)、機(jī)器人導(dǎo)航、自動(dòng)駕駛等。在 3D 重建、深度學(xué)習(xí)、云計(jì)算、無線通信等領(lǐng)域,單目視覺定位技術(shù)取得了長足的進(jìn)步,并開展了一些實(shí)際應(yīng)用。視覺定位基本上可以分為三類,稱為直接 2D-3D 匹配方法、基于圖像檢索的方法和基于學(xué)習(xí)的回歸方法。在這些方法中,直接2D-3D匹配方法由于其對(duì)GPU的依賴少、計(jì)算復(fù)雜度低等優(yōu)點(diǎn),已成為許多實(shí)際應(yīng)用的首選方法。 對(duì)于直接 2D-3D 匹配方法,預(yù)先構(gòu)建的 3D 場景模型中的每個(gè) 3D 點(diǎn)都與相應(yīng)的圖像描述符相關(guān)聯(lián)。然后,對(duì)于查詢圖像中的每個(gè) 2D 特征,在包含所有 3D 點(diǎn)描述符的特征空間中,通過找到其最近鄰來搜索其對(duì)應(yīng)的 3D 模型點(diǎn)。為了加速搜索,Active Search [1] 通過在詞匯樹中應(yīng)用最近鄰搜索來執(zhí)行 2D 到 3D 匹配。然而,由于視覺詞匯引起的量化偽像,如果將圖像特征及其對(duì)應(yīng)的 3D 點(diǎn)分配給不同的詞,則 2D-3D 匹配將丟失,這將降低內(nèi)點(diǎn)率,進(jìn)而導(dǎo)致定位精度。為了恢復(fù)這種丟失的匹配,從 2D 到 3D 匹配開始,Active Search [1] 利用匹配點(diǎn)的 3D 位置,并通過同一詞匯樹中的粗略詞匯將其最近的 3D 點(diǎn)作為 3D 到 2D 搜索的候選者。然而,由于空間接近并不一定意味著兩個(gè) 3D 點(diǎn)的共可見性,因此在查詢圖像中可以看到的正確候選點(diǎn)的數(shù)量是有限的。此外,由于錯(cuò)誤的 2D-to-3D 匹配發(fā)現(xiàn)了不正確的 3D 候選,以及 3D-to-2D 搜索的高誤報(bào)匹配率,因此在 Active Search 中應(yīng)用了嚴(yán)格的比率測試閾值,導(dǎo)致拒絕正確的 3D-to-2D 搜索。2D 輕松匹配。因此,在不斷變化的條件下(晝夜、天氣變化、季節(jié)變化),真實(shí)內(nèi)點(diǎn)率會(huì)很低,這將導(dǎo)致定位失敗。 在本文中,基于主動(dòng)搜索 [1] 發(fā)現(xiàn)的初始 2D-3D 匹配,我們提出了兩種簡單有效的機(jī)制,稱為基于可見性和基于空間的召回步驟,以恢復(fù)由量化偽像引起的丟失匹配?;诳梢娦缘恼倩乩脕碜猿跏计ヅ浜?SFM 模型的可見性信息來為查詢圖像找到最佳的共可見數(shù)據(jù)庫圖像。基于空間的召回進(jìn)一步考慮了特征空間布局,以找到另一個(gè)與查詢圖像具有相似特征分布的數(shù)據(jù)庫圖像。然后將這兩個(gè)數(shù)據(jù)庫圖像中的可見模型點(diǎn)作為粗詞匯中的 3D-to-2D 匹配的候選點(diǎn),以召回更多匹配。由于這兩種召回機(jī)制,使得我們專注于更可能在查詢圖像中可見的場景點(diǎn)。因此,可以應(yīng)用寬松的比率測試閾值,用來恢復(fù)已被主動(dòng)搜索中使用嚴(yán)格閾值導(dǎo)致拒絕的正確匹配。本文的主要貢獻(xiàn)可歸納如下:
我們提出了一種改進(jìn)的基于直接2D-3D匹配的定位 pipeline,可以以簡單有效的方式有效地?cái)U(kuò)展主動(dòng)搜索的初始匹配。
在我們的pipeline中,所提出的基于可見性和基于空間的召回機(jī)制,可以充分利用初始匹配和詞匯樹結(jié)構(gòu)來恢復(fù)由量化偽像引起的丟失匹配。
與SOTA的直接 2D-3D 匹配方法相比,所提出的方法在benchmarks上取得了更好的結(jié)果,而不會(huì)增加太多計(jì)算時(shí)間,并且適用于手工的特征和基于學(xué)習(xí)的特征。
圖1. 本文提出方法的 pipeline
二、相關(guān)工作
在本節(jié)中,我們簡要回顧了視覺定位的相關(guān)工作,并將它們分為直接 2D-3D 匹配方法、基于圖像檢索的方法和基于學(xué)習(xí)的回歸方法。
2.1 直接 2D-3D 匹配方法
通過直接比較從查詢圖像中提取的特征描述符與 SFM 模型 [2] 中的 3D 點(diǎn)來獲得 2D-3D 匹配,然后基于 Perspective-n-Point (PnP) 算法 ,對(duì)這些 2D-3D 匹配使用 RANSAC 算法估計(jì)相機(jī)位姿。經(jīng)典的直接匹配方法,例如基于近似樹的搜索 ,在中小型問題上提供了出色的匹配結(jié)果。然而,在非常大和密集的描述符集合中,搜索得開銷變得非常大。為此,李等人,基于場景點(diǎn)的共可見性,采用一種優(yōu)先 3D 到 2D 的匹配方案,將 3D 點(diǎn)與查詢圖像進(jìn)行比較。盡管比直接基于樹的 2D 到 3D 匹配要快得多,但由于 3D 到 2D 搜索的高誤報(bào)率,它們的方法還沒有那么有效。薩特勒等人 [7] 表明 2D 到 3D 匹配為改進(jìn)基于樹的方法提供了相當(dāng)大的潛力。在[7]的基礎(chǔ)上,他們進(jìn)一步結(jié)合了來自詞匯樹的不同數(shù)量視覺詞匯中的2Dto-3D和3D-to-2D匹配,僅使用局部特征實(shí)現(xiàn)了最先進(jìn)的結(jié)果,同時(shí)具有效率和有效性[1 ]。程等人。針對(duì)二進(jìn)制特征表征,[8] 提出了一種Cascaded Parallel filtering(CPF) 的方法,該方法可以以節(jié)省內(nèi)存的方式實(shí)現(xiàn)具有競爭力的定位精度。此外,一些方法在定位過程中使用附加信息來提高定位精度。鑒于有關(guān)重力方向和相機(jī)高度的知識(shí),城市規(guī)模定位(CSL)[9] 采用異常值拒絕策略,用來拒絕不能成為最佳相機(jī)位姿的一部分對(duì)應(yīng)關(guān)系。與 CSL 類似,基于語義匹配一致性 (SMC) 的定位 [10] ,使用基于場景語義的軟異常值拒絕方法,該方法在環(huán)境變化劇烈的數(shù)據(jù)集上具有顯著改進(jìn)。
2.2 基于圖像檢索的方法
早期將視覺定位視為地點(diǎn)識(shí)別問題。他們使用最相似的檢索圖像的位姿,或前 N 個(gè)檢索圖像的融合位姿,來近似查詢圖像的位姿 [11]-[15]。其中,DenseVLAD[14] 和NetVLAD[15] 是該類型的代表工作,其中DenseVLAD聚合了密集提取的 SIFT [16] 描述符,而NetVLAD使用學(xué)習(xí)特征。它們都可以抵抗晝夜變化,并且在大規(guī)模上運(yùn)行良好。最近,大多數(shù)基于圖像檢索的方法,首先執(zhí)行圖像檢索步驟,然后進(jìn)行精細(xì)的位姿估計(jì),因此它們也被稱為分層定位 [2,17,18]。由于某些檢索數(shù)據(jù)庫圖像可能不正確,Shi 等人 [19] 通過比較查詢圖像和檢索圖像之間的語義一致性,為每個(gè)檢索圖像賦予采樣權(quán)重,并執(zhí)行加權(quán)采樣 RANSAC-loop,然后執(zhí)行標(biāo)準(zhǔn)的 PnP 求解器。薩林等人 [20] 提出了一種基于單片 CNN 的分層方法,該方法同時(shí)預(yù)測局部特征和全局描述符,以實(shí)現(xiàn)準(zhǔn)確的 6-DOF 定位。
2.3 基于學(xué)習(xí)的回歸方法
隨著深度學(xué)習(xí)的快速發(fā)展,基于學(xué)習(xí)的回歸方法在過去幾年中受到了廣泛的關(guān)注。這類方法使用端到端的訓(xùn)練和推理來直接獲取相機(jī)位姿。通常通過訓(xùn)練多層感知機(jī)來過濾異常值 [21, 22] ,或者訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)直接回歸得到 6-DOF 相機(jī)位姿[23]-[26] 。盡管基于學(xué)習(xí)的方法發(fā)展迅速,但這些方法仍然存在一些明顯的局限性。例如,相比準(zhǔn)確的位姿估計(jì),位姿回歸與通過圖像檢索得到的位姿更相似。因此,其性能在很大程度上取決于場景中的圖像數(shù)據(jù)集的分布 [27]。除了通過 CNN 直接回歸相機(jī)位姿外,近年來,基于學(xué)習(xí)的局部特征和基于學(xué)習(xí)的特征匹配 [28]-[31] 也被廣泛用于提高定位性能和魯棒性。
三、召回直接匹配
我們方法的流程如圖1所示。包括四個(gè)主要步驟,包括初始匹配、基于可見性的召回、基于空間的召回和最終姿勢計(jì)算。在我們的pipeline 中,首先使用標(biāo)準(zhǔn)的直接搜索方法,找到初始的 2D-3D 匹配。然后,使用基于可見性和基于空間的召回,在由這些匹配投票的兩個(gè)圖像數(shù)據(jù)集中找到 3D 候選。然后,候選者用于 3D 到 2D 搜索,以恢復(fù)最初由于量化偽像而丟失的匹配。一旦找到一定數(shù)量的匹配,我們將初始匹配和召回匹配結(jié)合在一起,并使用 RANSAC PnP 來估計(jì)相機(jī)位姿。每個(gè)步驟的詳細(xì)信息將在以下小節(jié)中描述。
3.1 初始匹配
對(duì)于視覺定位問題,首先使用 Structure-from-Motion (SFM) 算法,離線構(gòu)建出場景的 3D 模型 [32, 33]。在這個(gè) 3D 模型中,每個(gè) 3D 點(diǎn)都與從相應(yīng)圖像數(shù)據(jù)集中提取的一組描述符(例如 SIFT [16])相關(guān)聯(lián)。同樣在離線階段,為了建立這些描述符的索引,首先使用(近似)k-means聚類訓(xùn)練一個(gè)通用或特定的視覺詞匯。然后,通過最近鄰搜索,將每個(gè)3D點(diǎn)的描述符分配給它們最接近的視覺詞。為了減少內(nèi)存消耗并提高效率,對(duì)于由給定 3D 點(diǎn)激活的每個(gè)視覺詞,計(jì)算分配給該詞的所有描述符的平均值,我們通過它來表示 3D 點(diǎn)。在在線階段,對(duì)于給定的查詢圖像,描述符被提取并分配給它們最接近的視覺詞。然后,從在每個(gè)視覺詞中找到的 2D-to-3D 匹配開始,我們按照 [1] 通過利用匹配點(diǎn)附近的 3D 模型點(diǎn)來獲得一些 3D-to-2D 匹配,并將這些 2D-to-3D 和3D-to-2D 匹配匯聚在一起。之后,最大的匹配子集,表示為Mcluster,是通過對(duì)所有匹配的共可見進(jìn)行聚類獲得的,然后在Mcluster上應(yīng)用 RANSAC PnP 以獲得我們 pipeline 中的初始匹配Minitial。但是,由于 3D-to-2D 搜索的 3D 匹配點(diǎn)數(shù)量有限,以及比率測試的嚴(yán)格閾值,Minitial中的匹配可能很少。因此,在不斷變化的條件下(晝夜、天氣變化、季節(jié)變化),真實(shí)的內(nèi)點(diǎn)率可能非常低,這將導(dǎo)致定位失敗。在我們的 pipeline 中,我們使用Minitial作為初始匹配,并進(jìn)行后續(xù)的召回操作,以找到丟失的匹配,同時(shí)增加內(nèi)點(diǎn)率。
3.2 基于可見性的召回
為了從Minitial中恢復(fù)更多匹配,我們使用Minitial和 SFM 模型的可見性信息,來召回丟失的 2D-3D 匹配。由于此過程完全使用 3D 點(diǎn)的可見性作為尋找匹配的線索,我們將此步驟稱為基于可見性的召回 (VBR)。 令Pinitial為Minitial中所有 3D 點(diǎn)的集合。顯然,對(duì)于每個(gè) 3D 點(diǎn) p∈Pinitial,通常在與 p 類似的區(qū)域中有許多 3D 模型點(diǎn),尤其是在紋理豐富的區(qū)域。然而,由于查詢圖像與場景點(diǎn)之間未知的遮擋關(guān)系,p 的一些甚至很多附近的模型點(diǎn)不太可能在查詢圖像中可見。因此,為了在該區(qū)域獲得合理的 3D 點(diǎn),我們不再像 Active Search [1] 那樣直接尋找Pinitial周圍的最近鄰,而是根據(jù) 3D 點(diǎn)與圖像數(shù)據(jù)集的共可見關(guān)系進(jìn)行選擇,因?yàn)楣部梢娦孕畔⒁汛鎯?chǔ)在 SFM 模型中。因此,我們打算尋找可以在P~initial~中看到盡可能多的點(diǎn)的圖像數(shù)據(jù)集,并可以認(rèn)為該圖像數(shù)據(jù)集與查詢圖像具有最大的相似性。
圖 2. VBR 結(jié)果的兩個(gè)例子。在(a)和(b)中,左邊是查詢圖像,右邊是 VBR 選擇的圖像數(shù)據(jù)集,紅線是初始匹配,綠線是 通過 VBR 得到的召回匹配。 更具體地說,我們首先檢查Pinitial和數(shù)據(jù)庫圖像之間的可見性關(guān)系。即,使用來自 SFM 模型的可見性信息,對(duì)可以觀察到Pinitial中每個(gè) 3D 點(diǎn)的每個(gè)數(shù)據(jù)集圖像進(jìn)行投票。然后,投票數(shù)最高的數(shù)據(jù)集圖像,被認(rèn)為是Pinitial的最佳可見圖像,表示為IVBR。之后,我們從 SFM 模型中收集IVBR的所有可見模型點(diǎn),記為 PVBR,并使用類似于 [6] 的思想對(duì)PVBR中的所有 3D 點(diǎn)進(jìn)行優(yōu)先級(jí)排序。其中,在所有數(shù)據(jù)集圖像中可見次數(shù)較多的點(diǎn),具有更高的優(yōu)先級(jí),表明它們更有可能再次被查詢圖像可見。然后,我們在詞匯樹的第 2 層,對(duì)來自PVBR的已排序 3D 點(diǎn),逐個(gè)執(zhí)行一個(gè)優(yōu)先的 3D-to-2D 匹配方案,如 [1],以獲得新的匹配MVBR??紤]到計(jì)算效率的問題,當(dāng)MVBR中的匹配數(shù)達(dá)到某個(gè)閾值NR(本文中NR= 300)時(shí),我們停止 3D-to-2D 搜索。這里,MVBR是我們基于可見性的召回過程D得到的匹配結(jié)果,如圖 2 所示。
3.3 基于空間的召回
在基于可見性的召回期間,會(huì)添加一組新匹配,但這些匹配存在一些限制。由于IVBR的選擇僅取決于初始 3D 點(diǎn)Pinitial的可見性,當(dāng)集合Pinitial對(duì)應(yīng)的初始 2D 特征在查詢圖像中數(shù)量較少或分布不佳時(shí),這些點(diǎn)投票的圖像數(shù)據(jù)集IVBR可能不完全表征查詢圖像中包含的場景。因此,可能并未找到查詢圖像中所有可見的 3D 點(diǎn)。基于這一觀察,我們進(jìn)一步提出了一種基于圖像特征點(diǎn)分布特征的召回機(jī)制。由于這個(gè)過程主要基于特征的空間分布,我們稱之為基于空間的召回(SBR)。 為了找到與查詢圖像具有相似分布特征的圖像,我們需要比較數(shù)據(jù)集圖像和查詢圖像之間特征分布的相似性。請(qǐng)注意,我們已經(jīng)有了初始匹配Minitial,它描述了查詢圖像和數(shù)據(jù)集圖像之間的局部特征對(duì)應(yīng)關(guān)系,因此,我們可以使用這些關(guān)系直接比較空間相似度。為此,我們將前 10 個(gè)候選圖像保留在前一個(gè) VBR 步驟的投票結(jié)果中,并評(píng)估查詢圖像與每個(gè)候選圖像之間的特征空間相似性。直觀上,對(duì)于一對(duì)查詢圖像和候選圖像,如果它們的匹配點(diǎn)在各自圖像上具有相似的圖像坐標(biāo),我們認(rèn)為它們具有相似的特征分布,這意味著它們的位姿可能比較接近。為了有效地評(píng)估特征空間相似度,我們首先將查詢圖像I~q~和候選圖像I~c~劃分為圖像平面中 m×n 大小相等的 bins(本文中 m 和 n 均設(shè)置為 3),如圖 3(a) 所示。然后對(duì)于每對(duì)對(duì)應(yīng)的 bins,并且分別來自I~q~和I~c~,和之間 (i= 1...m,j= 1...n)的相似性,表示為,如果和包含至少一個(gè)匹配特征或不包含特征,則將其設(shè)置為 1,否則設(shè)置為 0。當(dāng)這對(duì) bin 不包含任何特征時(shí)設(shè)置為 1 ,是因?yàn)槲覀冋J(rèn)為沒有特征比位于非對(duì)應(yīng) bins 上的匹配更好。最后,I~q~和I~c~之間的相似度得分,由下式計(jì)算出:唯一的特殊情況是,當(dāng)所有 bins 對(duì)都不包含匹配項(xiàng)時(shí),將設(shè)置為 0。因?yàn)樵谶@種情況下,所有的非零值都來自沒有特征的空 bins。因此,該候選圖像不是我們所期望的。查詢圖像和三個(gè)候選圖像的示例,以及它們的相似度得分,如圖 3 所示。 依次對(duì)所有候選圖像進(jìn)行評(píng)分后,相似度得分最高的圖像將作為 SBR 找到的最佳數(shù)據(jù)集圖像,記為ISBR。如果有多個(gè)得分高的數(shù)據(jù)集圖像,我們選擇與查詢圖像初始匹配最多的一個(gè)作為ISBR。然后和 VBR 一樣,收集ISBR的所有可見 SFM 模型點(diǎn),進(jìn)行優(yōu)先的 3D-to-2D 匹配,得到新的匹配MSBR,這是我們基于空間召回過程的丟失匹配的查找結(jié)果。
(a) 查詢圖像(左)和選擇的數(shù)據(jù)集圖像 *I~SBR~*(右),SBR 具有最高相似度得分()。
圖 3. VBR 結(jié)果示例。在 (a) 中,紅線是初始匹配,綠線是 SBR 召回的匹配。在 (a)-(c) 中,綠色和紅色框分別表示和 的 bin 區(qū)域。
3.4 最終位姿的計(jì)算
最后,我們將基于可見性和基于空間的召回結(jié)果MVBR和MSBR,與初始匹配Minitial相結(jié)合,然后再次執(zhí)行 RANSAC PnP 以獲得最終位姿。請(qǐng)注意,在前面的 VBR 和 SBR 步驟中,我們使用檢索圖像中的所有 3D 模型點(diǎn),且有Pinitial的 3D 模型點(diǎn)。這樣做的原因如下,一些初始匹配Minitial可能會(huì)受到量化偽像的嚴(yán)重影響,因此這些匹配可能是錯(cuò)誤的。通過在粗略的視覺詞匯表中重新匹配Minitial中的這些點(diǎn),這些 3D 點(diǎn)可能會(huì)因此找到正確的對(duì)應(yīng)關(guān)系。
四、實(shí)驗(yàn)
4.1 數(shù)據(jù)集和評(píng)估指標(biāo)
數(shù)據(jù)集和評(píng)估指標(biāo)我們在兩個(gè)長期視覺定位 benchmark 數(shù)據(jù)集 [34]RobotCarSeasons 和AachenDay-Night 上評(píng)估我們提出的方法。在RobotCar Seasons數(shù)據(jù)集中,所有圖像都是用安裝在汽車上的攝像頭記錄的,涵蓋了廣泛的條件變化,例如:不同的天氣,不同的季節(jié),晝夜。在Aachen DayNight數(shù)據(jù)集 [34] 中,數(shù)據(jù)庫圖像是在白天使用手持相機(jī)拍攝的,查詢圖像是在白天和夜間使用手機(jī)拍攝的。對(duì)于這兩個(gè)數(shù)據(jù)集,我們遵循 [34] 中使用的評(píng)估指標(biāo),并報(bào)告定位在距離地面實(shí)況相機(jī)姿勢一定距離(米)和方向角(度)內(nèi)的查詢圖像的百分比。在基準(zhǔn)測試中,使用了三個(gè)不同級(jí)別的定位精度,即高精度(0.25m,21°)、中精度(0.5m,51°)和粗精度(5m,101°)。
4.2 實(shí)施細(xì)節(jié)
對(duì)于每個(gè)數(shù)據(jù)集,我們使用FLANN 庫 [36] ,在從所有數(shù)據(jù)集圖像中提取的所有uprightRootSIFT[16, 35] 特征上,訓(xùn)練一個(gè)特定的 100k 視覺詞匯表。在初始匹配步驟中,由于每個(gè)數(shù)據(jù)集使用場景特定的詞匯樹,我們使用 [1] 中的默認(rèn)參數(shù),但用于 2D-to-3D/3D-to-2D 比率測試的閾值 r 和閾值 N~t~ 用于提前終止匹配搜索。閾值 N~t~ 主要影響計(jì)算效率,在 Active Search [1] 中默認(rèn)使用 100。在我們的實(shí)驗(yàn)中,為了綜合評(píng)估性能,我們將 N~t~ 分別設(shè)置為 100、200 和 500。閾值 r 主要影響匹配選擇的嚴(yán)格程度,r 越小越嚴(yán)格,得到的初始匹配越少。在我們的實(shí)驗(yàn)中,初始匹配中比率測試的閾值 r 在 Aachen 數(shù)據(jù)集中分別設(shè)置為 0.75 和 0.6,在RobotCar數(shù)據(jù)集中分別設(shè)置為 0.85 和 0.6。為RobotCar數(shù)據(jù)集設(shè)置一個(gè)相對(duì)寬松的閾值 r ,是因?yàn)檫@個(gè)場景包含更劇烈的表征變化。請(qǐng)注意,在某些情況下,PnP 求解器在初始匹配步驟中,無法獲得任何內(nèi)部對(duì)應(yīng)關(guān)系,如果發(fā)生這種情況,我們將使用Mcluster而不是Minitial來執(zhí)行后續(xù)的調(diào)用步驟。在基于空間的召回步驟中,劃分圖像時(shí)使用了 3×3 的空間 bins,在不同的數(shù)據(jù)集上取得了合理的結(jié)果。在基于可見性和基于空間的召回步驟中,所有數(shù)據(jù)集的 3D-to-2D 搜索的比率測試閾值都設(shè)置為 0.8,這比初始匹配步驟中的閾值要寬松得多,因?yàn)槟:?的3D 模型點(diǎn)的數(shù)量在場景的一定范圍內(nèi)大大減少。最后,我們 pipeline 中使用的 PnP 算法是RansacLib[37, 38] 中重新實(shí)現(xiàn)的 RANSAC 部分,重投影誤差閾值設(shè)置為 10 像素。所有實(shí)驗(yàn)均在具有 2.40GHz 英特爾 E5-2640 CPU 的服務(wù)器上使用單個(gè) CPU 線程運(yùn)行。
4.3 與 SOTA 的比較
我們與最先進(jìn)的直接 2D-3D 匹配方法進(jìn)行了比較,包括 Active Search (AS) V1.1 [1]、Cascaded Parallel filter (CPF) [8]、City-scale Localization (CSL) [9 ] 和語義匹配一致性 (SMC) [10]。請(qǐng)注意,后兩種方法需要相機(jī)的一些先驗(yàn)知識(shí)或場景的語義信息。為了全面起見,我們還與兩種廣泛使用的基于圖像檢索的方法進(jìn)行了比較,包括NetVLAD[15] 和DenseVLAD[14]。 表一展示了RobotCar和 Aachen 數(shù)據(jù)集上的定量比較結(jié)果。結(jié)果表明,我們的方法優(yōu)于其他方法,除了RobotCar數(shù)據(jù)集中夜間的中等和粗略精度,這其中最好的結(jié)果來自 SMC [10]。請(qǐng)注意,SMC 需要有關(guān)重力方向的先驗(yàn)知識(shí),并依賴于微調(diào)的神經(jīng)網(wǎng)絡(luò)進(jìn)行語義分割。對(duì)于初始匹配中不同的 N~t~ 設(shè)置,結(jié)果表明初始匹配越多,最終結(jié)果越好,且在夜間的改善更為明顯,尤其是RobotCar中的夜間。然而,更多的初始匹配也意味著更長的計(jì)算時(shí)間,因此在實(shí)際應(yīng)用中,需要根據(jù)計(jì)算資源在效果和效率之間進(jìn)行平衡。
與原來的Active Search[1]相比,我們的方法在夜景上有更顯著的改進(jìn)。這是因?yàn)楣庹盏淖兓瘜?dǎo)致查詢圖像和數(shù)據(jù)集圖像的特征描述符之間存在較大差異,而這些差異導(dǎo)致 Active Search 從詞匯樹中計(jì)算出的正確匹配較少。因此,通過我們的方法召回匹配后,準(zhǔn)確率將大大提高。并且,與基于圖像檢索的方法相比,我們的方法在沒有 GPU 的情況下也實(shí)現(xiàn)了更高的精度(GPU 一直用于基于圖像檢索的 CNN 圖像檢索中,并加速圖像到圖像的完整特征匹配)。 由于計(jì)算效率高是直接 2D-3D 匹配方法的主要優(yōu)勢,我們還評(píng)估了整個(gè)pipeline 中基于可見性和基于空間的召回步驟的時(shí)間消耗,如表 ii 所示。表 ii 顯示了在RobotCar和Aachen數(shù)據(jù)集上,我們的方法定位查詢圖像(不包括特征提?。┧ㄙM(fèi)的平均時(shí)間??梢钥闯?,加入可見性或空位召回比原來的Active Search(w/o VBR+SBR)增加約 200-300ms,同時(shí)使用VBR和SBR比單獨(dú)使用多約 100ms,而不是分別運(yùn)行它們的時(shí)間總和。因?yàn)橐恍?3D 候選點(diǎn)在 VBR 和 SBR 中是重復(fù)的,所以對(duì)于這些點(diǎn),我們只執(zhí)行了一次 3D-to-2D 搜索。
4.4 消融研究
消融研究用于評(píng)估兩個(gè)關(guān)鍵步驟 VBR 和 SBR 的影響,在我們的方法中,我們基于 RobotCar 和 Aachen 數(shù)據(jù)集進(jìn)行了消融研究,如表 iii 所示。 沒有 VBR 和 SBR 的方法(表 iii 中每個(gè)數(shù)據(jù)集的第一行)時(shí),我們的方法與表 i 中的 Active Search v1.1 基本相同,唯一的區(qū)別是我們?yōu)槊總€(gè)數(shù)據(jù)集重新訓(xùn)練了 100k 個(gè)單詞的特定視覺詞匯表, 而 Active Search v1.1 使用在來自 Aachen 模型和不相關(guān)數(shù)據(jù)集的圖像上訓(xùn)練的 100k 詞的通用詞匯表,但它們的性能相似。表 iii 表明,對(duì)于這兩個(gè)數(shù)據(jù)集,單獨(dú)使用 VBR 或 SBR 都可以大大提高定位精度,使用 SBR 獲得的結(jié)果更好,這表明找到與查詢圖像具有相同特征分布的圖像很重要 。此外,同時(shí)使用 VBR 和 SBR 步驟可以進(jìn)一步地提高定位精度。
4.5 手工制作的 V.S. 基于學(xué)習(xí)的局部特征
上述實(shí)驗(yàn)均基于 SIFT [16] 特征,但眾所周知,晝夜條件下的視覺定位( 即基于白天 SFM 模型定位夜間圖像 )的成功率很低。為此,近年來提出了幾種基于學(xué)習(xí)的局部特征。為了使用基于學(xué)習(xí)的特征評(píng)估我們所提出的方法,我們使用最先進(jìn)的基于學(xué)習(xí)的局部特征 ASLFeat [30] ,并在 Aachen Day-Night 數(shù)據(jù)集上對(duì)其進(jìn)行評(píng)估。在實(shí)驗(yàn)中,我們首先從所有數(shù)據(jù)集圖像中提取 ASLFeat 特征,并利用這些特征來訓(xùn)練特定的視覺詞匯。此外,SFM 模型還使用 HF-Net [20] 提供的工具箱,根據(jù) ASLFeat 特征重新構(gòu)建。然后我們的全定位 pipeline(N~t~ = 500)被執(zhí)行,結(jié)果如表IV所示。此外,HF-Net(使用基于學(xué)習(xí)的全局和局部描述符來定位)的結(jié)果顯示在表 IV 的底行。將表 IV 中的 ASLFeat 的結(jié)果與 SIFT 的相應(yīng)結(jié)果(表 iii 中右下兩列)進(jìn)行比較,我們可以發(fā)現(xiàn)在我們的 pipeline 中,可以使用手工制作和基于學(xué)習(xí)的特征,并且 ASLFeat 的性能要比SIFT 好得多,更適合夜間條件,但白天不如 SIFT 。我們認(rèn)為原因是,雖然 ASLFeat 對(duì)光照變化的魯棒性比手工制作的特征要強(qiáng),但它的特征位置精度仍然不如 SIFT。
五、總結(jié)
在本文中,我們在 Active Search 的基礎(chǔ)上,提出了一種改進(jìn)的基于直接 2D-3D 匹配的定位方法 。在我們的 pipeline 中,提出了兩種簡單有效的機(jī)制,稱為基于可見性和基于空間的召回步驟,以恢復(fù)由量化偽像引起的丟失匹配,從而可以在不增加太多計(jì)算時(shí)間消耗的情況下,大大提高定位的精度和成功率。具有挑戰(zhàn)性的長期視覺定位 benchmarks 的實(shí)驗(yàn)結(jié)果,證明了我們方法的有效性。然而,目前的 pipeline 有兩個(gè)限制。首先,我們的方法強(qiáng)烈依賴于初始的匹配結(jié)果。如果聚類的初始匹配不包含任何正確的 2D-3D 匹配,我們的方法也會(huì)失敗。其次,在基于空間的召回步驟中,由于圖像平面劃分的規(guī)則,當(dāng)查詢和數(shù)據(jù)集合圖像間有較大的旋轉(zhuǎn)差異時(shí),我們的方法可能無法正常工作。盡管這種情況在現(xiàn)實(shí)實(shí)際中很少發(fā)生。這兩個(gè)限制,我們將在未來的工作中解決。
審核編輯:郭婷
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28423瀏覽量
207140 -
無線通信
+關(guān)注
關(guān)注
58文章
4570瀏覽量
143548 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121175
原文標(biāo)題:用于大規(guī)模視覺定位的直接2D-3D匹配(IROS 2021)
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論