向日葵视频色板app,日产一二三四区,在线观看国产一区二区三区

作者：Zhuo Song, Chuting Wang2, Yuqian Liu3, Shuhan Shen

一、引言

估計(jì)圖像相對(duì)于 3D 場景模型的 6-DOF相機(jī)位姿是近年來許多計(jì)算機(jī)視覺和機(jī)器人任務(wù)中的基本問題，如增強(qiáng)現(xiàn)實(shí)、機(jī)器人導(dǎo)航、自動(dòng)駕駛等。在 3D 重建、深度學(xué)習(xí)、云計(jì)算、無線通信等領(lǐng)域，單目視覺定位技術(shù)取得了長足的進(jìn)步，并開展了一些實(shí)際應(yīng)用。視覺定位基本上可以分為三類，稱為直接 2D-3D 匹配方法、基于圖像檢索的方法和基于學(xué)習(xí)的回歸方法。在這些方法中，直接2D-3D匹配方法由于其對(duì)GPU的依賴少、計(jì)算復(fù)雜度低等優(yōu)點(diǎn)，已成為許多實(shí)際應(yīng)用的首選方法。對(duì)于直接 2D-3D 匹配方法，預(yù)先構(gòu)建的 3D 場景模型中的每個(gè) 3D 點(diǎn)都與相應(yīng)的圖像描述符相關(guān)聯(lián)。然后，對(duì)于查詢圖像中的每個(gè) 2D 特征，在包含所有 3D 點(diǎn)描述符的特征空間中，通過找到其最近鄰來搜索其對(duì)應(yīng)的 3D 模型點(diǎn)。為了加速搜索，Active Search [1] 通過在詞匯樹中應(yīng)用最近鄰搜索來執(zhí)行 2D 到 3D 匹配。然而，由于視覺詞匯引起的量化偽像，如果將圖像特征及其對(duì)應(yīng)的 3D 點(diǎn)分配給不同的詞，則 2D-3D 匹配將丟失，這將降低內(nèi)點(diǎn)率，進(jìn)而導(dǎo)致定位精度。為了恢復(fù)這種丟失的匹配，從 2D 到 3D 匹配開始，Active Search [1] 利用匹配點(diǎn)的 3D 位置，并通過同一詞匯樹中的粗略詞匯將其最近的 3D 點(diǎn)作為 3D 到 2D 搜索的候選者。然而，由于空間接近并不一定意味著兩個(gè) 3D 點(diǎn)的共可見性，因此在查詢圖像中可以看到的正確候選點(diǎn)的數(shù)量是有限的。此外，由于錯(cuò)誤的 2D-to-3D 匹配發(fā)現(xiàn)了不正確的 3D 候選，以及 3D-to-2D 搜索的高誤報(bào)匹配率，因此在 Active Search 中應(yīng)用了嚴(yán)格的比率測試閾值，導(dǎo)致拒絕正確的 3D-to-2D 搜索。2D 輕松匹配。因此，在不斷變化的條件下（晝夜、天氣變化、季節(jié)變化），真實(shí)內(nèi)點(diǎn)率會(huì)很低，這將導(dǎo)致定位失敗。在本文中，基于主動(dòng)搜索 [1] 發(fā)現(xiàn)的初始 2D-3D 匹配，我們提出了兩種簡單有效的機(jī)制，稱為基于可見性和基于空間的召回步驟，以恢復(fù)由量化偽像引起的丟失匹配?；诳梢娦缘恼倩乩脕碜猿跏计ヅ浜?SFM 模型的可見性信息來為查詢圖像找到最佳的共可見數(shù)據(jù)庫圖像。基于空間的召回進(jìn)一步考慮了特征空間布局，以找到另一個(gè)與查詢圖像具有相似特征分布的數(shù)據(jù)庫圖像。然后將這兩個(gè)數(shù)據(jù)庫圖像中的可見模型點(diǎn)作為粗詞匯中的 3D-to-2D 匹配的候選點(diǎn)，以召回更多匹配。由于這兩種召回機(jī)制，使得我們專注于更可能在查詢圖像中可見的場景點(diǎn)。因此，可以應(yīng)用寬松的比率測試閾值，用來恢復(fù)已被主動(dòng)搜索中使用嚴(yán)格閾值導(dǎo)致拒絕的正確匹配。本文的主要貢獻(xiàn)可歸納如下：

我們提出了一種改進(jìn)的基于直接2D-3D匹配的定位 pipeline，可以以簡單有效的方式有效地?cái)U(kuò)展主動(dòng)搜索的初始匹配。

在我們的pipeline中，所提出的基于可見性和基于空間的召回機(jī)制，可以充分利用初始匹配和詞匯樹結(jié)構(gòu)來恢復(fù)由量化偽像引起的丟失匹配。

與SOTA的直接 2D-3D 匹配方法相比，所提出的方法在benchmarks上取得了更好的結(jié)果，而不會(huì)增加太多計(jì)算時(shí)間，并且適用于手工的特征和基于學(xué)習(xí)的特征。

圖1. 本文提出方法的 pipeline

二、相關(guān)工作

在本節(jié)中，我們簡要回顧了視覺定位的相關(guān)工作，并將它們分為直接 2D-3D 匹配方法、基于圖像檢索的方法和基于學(xué)習(xí)的回歸方法。

2.1 直接 2D-3D 匹配方法

通過直接比較從查詢圖像中提取的特征描述符與 SFM 模型 [2] 中的 3D 點(diǎn)來獲得 2D-3D 匹配，然后基于 Perspective-n-Point (PnP) 算法，對(duì)這些 2D-3D 匹配使用 RANSAC 算法估計(jì)相機(jī)位姿。經(jīng)典的直接匹配方法，例如基于近似樹的搜索，在中小型問題上提供了出色的匹配結(jié)果。然而，在非常大和密集的描述符集合中，搜索得開銷變得非常大。為此，李等人，基于場景點(diǎn)的共可見性，采用一種優(yōu)先 3D 到 2D 的匹配方案，將 3D 點(diǎn)與查詢圖像進(jìn)行比較。盡管比直接基于樹的 2D 到 3D 匹配要快得多，但由于 3D 到 2D 搜索的高誤報(bào)率，它們的方法還沒有那么有效。薩特勒等人 [7] 表明 2D 到 3D 匹配為改進(jìn)基于樹的方法提供了相當(dāng)大的潛力。在[7]的基礎(chǔ)上，他們進(jìn)一步結(jié)合了來自詞匯樹的不同數(shù)量視覺詞匯中的2Dto-3D和3D-to-2D匹配，僅使用局部特征實(shí)現(xiàn)了最先進(jìn)的結(jié)果，同時(shí)具有效率和有效性[1 ]。程等人。針對(duì)二進(jìn)制特征表征，[8] 提出了一種Cascaded Parallel filtering(CPF) 的方法，該方法可以以節(jié)省內(nèi)存的方式實(shí)現(xiàn)具有競爭力的定位精度。此外，一些方法在定位過程中使用附加信息來提高定位精度。鑒于有關(guān)重力方向和相機(jī)高度的知識(shí)，城市規(guī)模定位（CSL）[9] 采用異常值拒絕策略，用來拒絕不能成為最佳相機(jī)位姿的一部分對(duì)應(yīng)關(guān)系。與 CSL 類似，基于語義匹配一致性 (SMC) 的定位 [10] ，使用基于場景語義的軟異常值拒絕方法，該方法在環(huán)境變化劇烈的數(shù)據(jù)集上具有顯著改進(jìn)。

2.2 基于圖像檢索的方法

早期將視覺定位視為地點(diǎn)識(shí)別問題。他們使用最相似的檢索圖像的位姿，或前 N 個(gè)檢索圖像的融合位姿，來近似查詢圖像的位姿 [11]-[15]。其中，DenseVLAD[14] 和NetVLAD[15] 是該類型的代表工作，其中DenseVLAD聚合了密集提取的 SIFT [16] 描述符，而NetVLAD使用學(xué)習(xí)特征。它們都可以抵抗晝夜變化，并且在大規(guī)模上運(yùn)行良好。最近，大多數(shù)基于圖像檢索的方法，首先執(zhí)行圖像檢索步驟，然后進(jìn)行精細(xì)的位姿估計(jì)，因此它們也被稱為分層定位 [2,17,18]。由于某些檢索數(shù)據(jù)庫圖像可能不正確，Shi 等人 [19] 通過比較查詢圖像和檢索圖像之間的語義一致性，為每個(gè)檢索圖像賦予采樣權(quán)重，并執(zhí)行加權(quán)采樣 RANSAC-loop，然后執(zhí)行標(biāo)準(zhǔn)的 PnP 求解器。薩林等人 [20] 提出了一種基于單片 CNN 的分層方法，該方法同時(shí)預(yù)測局部特征和全局描述符，以實(shí)現(xiàn)準(zhǔn)確的 6-DOF 定位。

2.3 基于學(xué)習(xí)的回歸方法

隨著深度學(xué)習(xí)的快速發(fā)展，基于學(xué)習(xí)的回歸方法在過去幾年中受到了廣泛的關(guān)注。這類方法使用端到端的訓(xùn)練和推理來直接獲取相機(jī)位姿。通常通過訓(xùn)練多層感知機(jī)來過濾異常值 [21, 22] ，或者訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)直接回歸得到 6-DOF 相機(jī)位姿[23]-[26] 。盡管基于學(xué)習(xí)的方法發(fā)展迅速，但這些方法仍然存在一些明顯的局限性。例如，相比準(zhǔn)確的位姿估計(jì)，位姿回歸與通過圖像檢索得到的位姿更相似。因此，其性能在很大程度上取決于場景中的圖像數(shù)據(jù)集的分布 [27]。除了通過 CNN 直接回歸相機(jī)位姿外，近年來，基于學(xué)習(xí)的局部特征和基于學(xué)習(xí)的特征匹配 [28]-[31] 也被廣泛用于提高定位性能和魯棒性。

三、召回直接匹配

我們方法的流程如圖1所示。包括四個(gè)主要步驟，包括初始匹配、基于可見性的召回、基于空間的召回和最終姿勢計(jì)算。在我們的pipeline 中，首先使用標(biāo)準(zhǔn)的直接搜索方法，找到初始的 2D-3D 匹配。然后，使用基于可見性和基于空間的召回，在由這些匹配投票的兩個(gè)圖像數(shù)據(jù)集中找到 3D 候選。然后，候選者用于 3D 到 2D 搜索，以恢復(fù)最初由于量化偽像而丟失的匹配。一旦找到一定數(shù)量的匹配，我們將初始匹配和召回匹配結(jié)合在一起，并使用 RANSAC PnP 來估計(jì)相機(jī)位姿。每個(gè)步驟的詳細(xì)信息將在以下小節(jié)中描述。

3.1 初始匹配

對(duì)于視覺定位問題，首先使用 Structure-from-Motion (SFM) 算法，離線構(gòu)建出場景的 3D 模型 [32, 33]。在這個(gè) 3D 模型中，每個(gè) 3D 點(diǎn)都與從相應(yīng)圖像數(shù)據(jù)集中提取的一組描述符（例如 SIFT [16]）相關(guān)聯(lián)。同樣在離線階段，為了建立這些描述符的索引，首先使用（近似）k-means聚類訓(xùn)練一個(gè)通用或特定的視覺詞匯。然后，通過最近鄰搜索，將每個(gè)3D點(diǎn)的描述符分配給它們最接近的視覺詞。為了減少內(nèi)存消耗并提高效率，對(duì)于由給定 3D 點(diǎn)激活的每個(gè)視覺詞，計(jì)算分配給該詞的所有描述符的平均值，我們通過它來表示 3D 點(diǎn)。在在線階段，對(duì)于給定的查詢圖像，描述符被提取并分配給它們最接近的視覺詞。然后，從在每個(gè)視覺詞中找到的 2D-to-3D 匹配開始，我們按照 [1] 通過利用匹配點(diǎn)附近的 3D 模型點(diǎn)來獲得一些 3D-to-2D 匹配，并將這些 2D-to-3D 和3D-to-2D 匹配匯聚在一起。之后，最大的匹配子集，表示為Mcluster，是通過對(duì)所有匹配的共可見進(jìn)行聚類獲得的，然后在Mcluster上應(yīng)用 RANSAC PnP 以獲得我們 pipeline 中的初始匹配Minitial。但是，由于 3D-to-2D 搜索的 3D 匹配點(diǎn)數(shù)量有限，以及比率測試的嚴(yán)格閾值，Minitial中的匹配可能很少。因此，在不斷變化的條件下（晝夜、天氣變化、季節(jié)變化），真實(shí)的內(nèi)點(diǎn)率可能非常低，這將導(dǎo)致定位失敗。在我們的 pipeline 中，我們使用Minitial作為初始匹配，并進(jìn)行后續(xù)的召回操作，以找到丟失的匹配，同時(shí)增加內(nèi)點(diǎn)率。

3.2 基于可見性的召回

為了從Minitial中恢復(fù)更多匹配，我們使用Minitial和 SFM 模型的可見性信息，來召回丟失的 2D-3D 匹配。由于此過程完全使用 3D 點(diǎn)的可見性作為尋找匹配的線索，我們將此步驟稱為基于可見性的召回 (VBR)。令Pinitial為Minitial中所有 3D 點(diǎn)的集合。顯然，對(duì)于每個(gè) 3D 點(diǎn) p∈Pinitial，通常在與 p 類似的區(qū)域中有許多 3D 模型點(diǎn)，尤其是在紋理豐富的區(qū)域。然而，由于查詢圖像與場景點(diǎn)之間未知的遮擋關(guān)系，p 的一些甚至很多附近的模型點(diǎn)不太可能在查詢圖像中可見。因此，為了在該區(qū)域獲得合理的 3D 點(diǎn)，我們不再像 Active Search [1] 那樣直接尋找Pinitial周圍的最近鄰，而是根據(jù) 3D 點(diǎn)與圖像數(shù)據(jù)集的共可見關(guān)系進(jìn)行選擇，因?yàn)楣部梢娦孕畔⒁汛鎯?chǔ)在 SFM 模型中。因此，我們打算尋找可以在P~initial~中看到盡可能多的點(diǎn)的圖像數(shù)據(jù)集，并可以認(rèn)為該圖像數(shù)據(jù)集與查詢圖像具有最大的相似性。

圖 2. VBR 結(jié)果的兩個(gè)例子。在（a）和（b）中，左邊是查詢圖像，右邊是 VBR 選擇的圖像數(shù)據(jù)集，紅線是初始匹配，綠線是通過 VBR 得到的召回匹配。更具體地說，我們首先檢查Pinitial和數(shù)據(jù)庫圖像之間的可見性關(guān)系。即，使用來自 SFM 模型的可見性信息，對(duì)可以觀察到Pinitial中每個(gè) 3D 點(diǎn)的每個(gè)數(shù)據(jù)集圖像進(jìn)行投票。然后，投票數(shù)最高的數(shù)據(jù)集圖像，被認(rèn)為是Pinitial的最佳可見圖像，表示為IVBR。之后，我們從 SFM 模型中收集IVBR的所有可見模型點(diǎn)，記為 PVBR，并使用類似于 [6] 的思想對(duì)PVBR中的所有 3D 點(diǎn)進(jìn)行優(yōu)先級(jí)排序。其中，在所有數(shù)據(jù)集圖像中可見次數(shù)較多的點(diǎn)，具有更高的優(yōu)先級(jí)，表明它們更有可能再次被查詢圖像可見。然后，我們在詞匯樹的第 2 層，對(duì)來自PVBR的已排序 3D 點(diǎn)，逐個(gè)執(zhí)行一個(gè)優(yōu)先的 3D-to-2D 匹配方案，如 [1]，以獲得新的匹配MVBR?？紤]到計(jì)算效率的問題，當(dāng)MVBR中的匹配數(shù)達(dá)到某個(gè)閾值NR（本文中NR= 300）時(shí)，我們停止 3D-to-2D 搜索。這里，MVBR是我們基于可見性的召回過程D得到的匹配結(jié)果，如圖 2 所示。

3.3 基于空間的召回

在基于可見性的召回期間，會(huì)添加一組新匹配，但這些匹配存在一些限制。由于IVBR的選擇僅取決于初始 3D 點(diǎn)Pinitial的可見性，當(dāng)集合Pinitial對(duì)應(yīng)的初始 2D 特征在查詢圖像中數(shù)量較少或分布不佳時(shí)，這些點(diǎn)投票的圖像數(shù)據(jù)集IVBR可能不完全表征查詢圖像中包含的場景。因此，可能并未找到查詢圖像中所有可見的 3D 點(diǎn)。基于這一觀察，我們進(jìn)一步提出了一種基于圖像特征點(diǎn)分布特征的召回機(jī)制。由于這個(gè)過程主要基于特征的空間分布，我們稱之為基于空間的召回（SBR）。為了找到與查詢圖像具有相似分布特征的圖像，我們需要比較數(shù)據(jù)集圖像和查詢圖像之間特征分布的相似性。請(qǐng)注意，我們已經(jīng)有了初始匹配Minitial，它描述了查詢圖像和數(shù)據(jù)集圖像之間的局部特征對(duì)應(yīng)關(guān)系，因此，我們可以使用這些關(guān)系直接比較空間相似度。為此，我們將前 10 個(gè)候選圖像保留在前一個(gè) VBR 步驟的投票結(jié)果中，并評(píng)估查詢圖像與每個(gè)候選圖像之間的特征空間相似性。直觀上，對(duì)于一對(duì)查詢圖像和候選圖像，如果它們的匹配點(diǎn)在各自圖像上具有相似的圖像坐標(biāo)，我們認(rèn)為它們具有相似的特征分布，這意味著它們的位姿可能比較接近。為了有效地評(píng)估特征空間相似度，我們首先將查詢圖像I~q~和候選圖像I~c~劃分為圖像平面中 m×n 大小相等的 bins（本文中 m 和 n 均設(shè)置為 3），如圖 3(a) 所示。然后對(duì)于每對(duì)對(duì)應(yīng)的 bins，并且分別來自I~q~和I~c~，和之間 (i= 1...m,j= 1...n)的相似性，表示為，如果和包含至少一個(gè)匹配特征或不包含特征，則將其設(shè)置為 1，否則設(shè)置為 0。當(dāng)這對(duì) bin 不包含任何特征時(shí)設(shè)置為 1 ，是因?yàn)槲覀冋J(rèn)為沒有特征比位于非對(duì)應(yīng) bins 上的匹配更好。最后，I~q~和I~c~之間的相似度得分，由下式計(jì)算出：唯一的特殊情況是，當(dāng)所有 bins 對(duì)都不包含匹配項(xiàng)時(shí)，將設(shè)置為 0。因?yàn)樵谶@種情況下，所有的非零值都來自沒有特征的空 bins。因此，該候選圖像不是我們所期望的。查詢圖像和三個(gè)候選圖像的示例，以及它們的相似度得分，如圖 3 所示。依次對(duì)所有候選圖像進(jìn)行評(píng)分后，相似度得分最高的圖像將作為 SBR 找到的最佳數(shù)據(jù)集圖像，記為ISBR。如果有多個(gè)得分高的數(shù)據(jù)集圖像，我們選擇與查詢圖像初始匹配最多的一個(gè)作為ISBR。然后和 VBR 一樣，收集ISBR的所有可見 SFM 模型點(diǎn)，進(jìn)行優(yōu)先的 3D-to-2D 匹配，得到新的匹配MSBR，這是我們基于空間召回過程的丟失匹配的查找結(jié)果。

(a) 查詢圖像（左）和選擇的數(shù)據(jù)集圖像 *I~SBR~*（右），SBR 具有最高相似度得分（）。

圖 3. VBR 結(jié)果示例。在 (a) 中，紅線是初始匹配，綠線是 SBR 召回的匹配。在 (a)-(c) 中，綠色和紅色框分別表示和的 bin 區(qū)域。

3.4 最終位姿的計(jì)算

最后，我們將基于可見性和基于空間的召回結(jié)果MVBR和MSBR，與初始匹配Minitial相結(jié)合，然后再次執(zhí)行 RANSAC PnP 以獲得最終位姿。請(qǐng)注意，在前面的 VBR 和 SBR 步驟中，我們使用檢索圖像中的所有 3D 模型點(diǎn)，且有Pinitial的 3D 模型點(diǎn)。這樣做的原因如下，一些初始匹配Minitial可能會(huì)受到量化偽像的嚴(yán)重影響，因此這些匹配可能是錯(cuò)誤的。通過在粗略的視覺詞匯表中重新匹配Minitial中的這些點(diǎn)，這些 3D 點(diǎn)可能會(huì)因此找到正確的對(duì)應(yīng)關(guān)系。

四、實(shí)驗(yàn)

4.1 數(shù)據(jù)集和評(píng)估指標(biāo)

數(shù)據(jù)集和評(píng)估指標(biāo)我們在兩個(gè)長期視覺定位 benchmark 數(shù)據(jù)集 [34]RobotCarSeasons 和AachenDay-Night 上評(píng)估我們提出的方法。在RobotCar Seasons數(shù)據(jù)集中，所有圖像都是用安裝在汽車上的攝像頭記錄的，涵蓋了廣泛的條件變化，例如：不同的天氣，不同的季節(jié)，晝夜。在Aachen DayNight數(shù)據(jù)集 [34] 中，數(shù)據(jù)庫圖像是在白天使用手持相機(jī)拍攝的，查詢圖像是在白天和夜間使用手機(jī)拍攝的。對(duì)于這兩個(gè)數(shù)據(jù)集，我們遵循 [34] 中使用的評(píng)估指標(biāo)，并報(bào)告定位在距離地面實(shí)況相機(jī)姿勢一定距離（米）和方向角（度）內(nèi)的查詢圖像的百分比。在基準(zhǔn)測試中，使用了三個(gè)不同級(jí)別的定位精度，即高精度（0.25m，21°）、中精度（0.5m，51°）和粗精度（5m，101°）。

4.2 實(shí)施細(xì)節(jié)

對(duì)于每個(gè)數(shù)據(jù)集，我們使用FLANN 庫 [36] ，在從所有數(shù)據(jù)集圖像中提取的所有uprightRootSIFT[16, 35] 特征上，訓(xùn)練一個(gè)特定的 100k 視覺詞匯表。在初始匹配步驟中，由于每個(gè)數(shù)據(jù)集使用場景特定的詞匯樹，我們使用 [1] 中的默認(rèn)參數(shù)，但用于 2D-to-3D/3D-to-2D 比率測試的閾值 r 和閾值 N~t~ 用于提前終止匹配搜索。閾值 N~t~ 主要影響計(jì)算效率，在 Active Search [1] 中默認(rèn)使用 100。在我們的實(shí)驗(yàn)中，為了綜合評(píng)估性能，我們將 N~t~ 分別設(shè)置為 100、200 和 500。閾值 r 主要影響匹配選擇的嚴(yán)格程度，r 越小越嚴(yán)格，得到的初始匹配越少。在我們的實(shí)驗(yàn)中，初始匹配中比率測試的閾值 r 在 Aachen 數(shù)據(jù)集中分別設(shè)置為 0.75 和 0.6，在RobotCar數(shù)據(jù)集中分別設(shè)置為 0.85 和 0.6。為RobotCar數(shù)據(jù)集設(shè)置一個(gè)相對(duì)寬松的閾值 r ，是因?yàn)檫@個(gè)場景包含更劇烈的表征變化。請(qǐng)注意，在某些情況下，PnP 求解器在初始匹配步驟中，無法獲得任何內(nèi)部對(duì)應(yīng)關(guān)系，如果發(fā)生這種情況，我們將使用Mcluster而不是Minitial來執(zhí)行后續(xù)的調(diào)用步驟。在基于空間的召回步驟中，劃分圖像時(shí)使用了 3×3 的空間 bins，在不同的數(shù)據(jù)集上取得了合理的結(jié)果。在基于可見性和基于空間的召回步驟中，所有數(shù)據(jù)集的 3D-to-2D 搜索的比率測試閾值都設(shè)置為 0.8，這比初始匹配步驟中的閾值要寬松得多，因?yàn)槟：?的3D 模型點(diǎn)的數(shù)量在場景的一定范圍內(nèi)大大減少。最后，我們 pipeline 中使用的 PnP 算法是RansacLib[37, 38] 中重新實(shí)現(xiàn)的 RANSAC 部分，重投影誤差閾值設(shè)置為 10 像素。所有實(shí)驗(yàn)均在具有 2.40GHz 英特爾 E5-2640 CPU 的服務(wù)器上使用單個(gè) CPU 線程運(yùn)行。

4.3 與 SOTA 的比較

我們與最先進(jìn)的直接 2D-3D 匹配方法進(jìn)行了比較，包括 Active Search (AS) V1.1 [1]、Cascaded Parallel filter (CPF) [8]、City-scale Localization (CSL) [9 ] 和語義匹配一致性 (SMC) [10]。請(qǐng)注意，后兩種方法需要相機(jī)的一些先驗(yàn)知識(shí)或場景的語義信息。為了全面起見，我們還與兩種廣泛使用的基于圖像檢索的方法進(jìn)行了比較，包括NetVLAD[15] 和DenseVLAD[14]。表一展示了RobotCar和 Aachen 數(shù)據(jù)集上的定量比較結(jié)果。結(jié)果表明，我們的方法優(yōu)于其他方法，除了RobotCar數(shù)據(jù)集中夜間的中等和粗略精度，這其中最好的結(jié)果來自 SMC [10]。請(qǐng)注意，SMC 需要有關(guān)重力方向的先驗(yàn)知識(shí)，并依賴于微調(diào)的神經(jīng)網(wǎng)絡(luò)進(jìn)行語義分割。對(duì)于初始匹配中不同的 N~t~ 設(shè)置，結(jié)果表明初始匹配越多，最終結(jié)果越好，且在夜間的改善更為明顯，尤其是RobotCar中的夜間。然而，更多的初始匹配也意味著更長的計(jì)算時(shí)間，因此在實(shí)際應(yīng)用中，需要根據(jù)計(jì)算資源在效果和效率之間進(jìn)行平衡。

與原來的Active Search[1]相比，我們的方法在夜景上有更顯著的改進(jìn)。這是因?yàn)楣庹盏淖兓瘜?dǎo)致查詢圖像和數(shù)據(jù)集圖像的特征描述符之間存在較大差異，而這些差異導(dǎo)致 Active Search 從詞匯樹中計(jì)算出的正確匹配較少。因此，通過我們的方法召回匹配后，準(zhǔn)確率將大大提高。并且，與基于圖像檢索的方法相比，我們的方法在沒有 GPU 的情況下也實(shí)現(xiàn)了更高的精度（GPU 一直用于基于圖像檢索的 CNN 圖像檢索中，并加速圖像到圖像的完整特征匹配）。由于計(jì)算效率高是直接 2D-3D 匹配方法的主要優(yōu)勢，我們還評(píng)估了整個(gè)pipeline 中基于可見性和基于空間的召回步驟的時(shí)間消耗，如表 ii 所示。表 ii 顯示了在RobotCar和Aachen數(shù)據(jù)集上，我們的方法定位查詢圖像（不包括特征提?。┧ㄙM(fèi)的平均時(shí)間?？梢钥闯?，加入可見性或空位召回比原來的Active Search（w/o VBR+SBR）增加約 200-300ms，同時(shí)使用VBR和SBR比單獨(dú)使用多約 100ms，而不是分別運(yùn)行它們的時(shí)間總和。因?yàn)橐恍?3D 候選點(diǎn)在 VBR 和 SBR 中是重復(fù)的，所以對(duì)于這些點(diǎn)，我們只執(zhí)行了一次 3D-to-2D 搜索。

4.4 消融研究

消融研究用于評(píng)估兩個(gè)關(guān)鍵步驟 VBR 和 SBR 的影響，在我們的方法中，我們基于 RobotCar 和 Aachen 數(shù)據(jù)集進(jìn)行了消融研究，如表 iii 所示。沒有 VBR 和 SBR 的方法（表 iii 中每個(gè)數(shù)據(jù)集的第一行）時(shí)，我們的方法與表 i 中的 Active Search v1.1 基本相同，唯一的區(qū)別是我們?yōu)槊總€(gè)數(shù)據(jù)集重新訓(xùn)練了 100k 個(gè)單詞的特定視覺詞匯表，而 Active Search v1.1 使用在來自 Aachen 模型和不相關(guān)數(shù)據(jù)集的圖像上訓(xùn)練的 100k 詞的通用詞匯表，但它們的性能相似。表 iii 表明，對(duì)于這兩個(gè)數(shù)據(jù)集，單獨(dú)使用 VBR 或 SBR 都可以大大提高定位精度，使用 SBR 獲得的結(jié)果更好，這表明找到與查詢圖像具有相同特征分布的圖像很重要。此外，同時(shí)使用 VBR 和 SBR 步驟可以進(jìn)一步地提高定位精度。

4.5 手工制作的 V.S. 基于學(xué)習(xí)的局部特征

上述實(shí)驗(yàn)均基于 SIFT [16] 特征，但眾所周知，晝夜條件下的視覺定位（即基于白天 SFM 模型定位夜間圖像）的成功率很低。為此，近年來提出了幾種基于學(xué)習(xí)的局部特征。為了使用基于學(xué)習(xí)的特征評(píng)估我們所提出的方法，我們使用最先進(jìn)的基于學(xué)習(xí)的局部特征 ASLFeat [30] ，并在 Aachen Day-Night 數(shù)據(jù)集上對(duì)其進(jìn)行評(píng)估。在實(shí)驗(yàn)中，我們首先從所有數(shù)據(jù)集圖像中提取 ASLFeat 特征，并利用這些特征來訓(xùn)練特定的視覺詞匯。此外，SFM 模型還使用 HF-Net [20] 提供的工具箱，根據(jù) ASLFeat 特征重新構(gòu)建。然后我們的全定位 pipeline（N~t~ = 500）被執(zhí)行，結(jié)果如表IV所示。此外，HF-Net（使用基于學(xué)習(xí)的全局和局部描述符來定位）的結(jié)果顯示在表 IV 的底行。將表 IV 中的 ASLFeat 的結(jié)果與 SIFT 的相應(yīng)結(jié)果（表 iii 中右下兩列）進(jìn)行比較，我們可以發(fā)現(xiàn)在我們的 pipeline 中，可以使用手工制作和基于學(xué)習(xí)的特征，并且 ASLFeat 的性能要比SIFT 好得多，更適合夜間條件，但白天不如 SIFT 。我們認(rèn)為原因是，雖然 ASLFeat 對(duì)光照變化的魯棒性比手工制作的特征要強(qiáng)，但它的特征位置精度仍然不如 SIFT。

五、總結(jié)

在本文中，我們在 Active Search 的基礎(chǔ)上，提出了一種改進(jìn)的基于直接 2D-3D 匹配的定位方法。在我們的 pipeline 中，提出了兩種簡單有效的機(jī)制，稱為基于可見性和基于空間的召回步驟，以恢復(fù)由量化偽像引起的丟失匹配，從而可以在不增加太多計(jì)算時(shí)間消耗的情況下，大大提高定位的精度和成功率。具有挑戰(zhàn)性的長期視覺定位 benchmarks 的實(shí)驗(yàn)結(jié)果，證明了我們方法的有效性。然而，目前的 pipeline 有兩個(gè)限制。首先，我們的方法強(qiáng)烈依賴于初始的匹配結(jié)果。如果聚類的初始匹配不包含任何正確的 2D-3D 匹配，我們的方法也會(huì)失敗。其次，在基于空間的召回步驟中，由于圖像平面劃分的規(guī)則，當(dāng)查詢和數(shù)據(jù)集合圖像間有較大的旋轉(zhuǎn)差異時(shí)，我們的方法可能無法正常工作。盡管這種情況在現(xiàn)實(shí)實(shí)際中很少發(fā)生。這兩個(gè)限制，我們將在未來的工作中解決。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
211

文章
28423

瀏覽量
207140
無線通信

無線通信

+關(guān)注

關(guān)注
58

文章
4570

瀏覽量
143548
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5503

瀏覽量
121175

原文標(biāo)題：用于大規(guī)模視覺定位的直接2D-3D匹配（IROS 2021)

文章出處：【微信號(hào)：vision263com，微信公眾號(hào)：新機(jī)器視覺】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

什么是伽瑪(γ)匹配

什么是伽瑪(γ)匹配伽瑪（γ）匹配實(shí)際上是T形匹配的半邊，適合與50Ω同軸電纜連線，是一種很方便的匹配方式。其中d1＞

發(fā)表于 10-20 16:01 ?4746次閱讀

基于D2D通信的最大帶權(quán)匹配比例資源分配算法

針對(duì)終端直通（D2D）通信系統(tǒng)中用戶的公平性問題，首先對(duì)現(xiàn)有的比例公平原則進(jìn)行擴(kuò)展，推導(dǎo)出一個(gè)與加權(quán)和速率有關(guān)的優(yōu)化問題，然后提出了一個(gè)最大帶權(quán)匹配比例公平（ KMPF）資源分配算法對(duì)其進(jìn)行優(yōu)化

發(fā)表于 12-03 10:59 ?2次下載

二維網(wǎng)格的室內(nèi)匹配定位算法

快速搜索策略降低匹配定位的計(jì)算量，采用網(wǎng)格特征向量的歸一化歐氏距離進(jìn)行最優(yōu)網(wǎng)格匹配定位，最終由匹配

發(fā)表于 01-29 11:52 ?0次下載

深度學(xué)習(xí)：搜索和推薦中的深度匹配問題

的深度匹配問題，非常solid的綜述，針對(duì)里面的一些方法，尤其是feature-based的深度學(xué)習(xí)方法增加了近期一些相關(guān)paper。推薦系統(tǒng)和搜索應(yīng)該是機(jī)器學(xué)習(xí)乃至深度學(xué)習(xí)在工業(yè)界落地應(yīng)用最多也最容易

發(fā)表于 11-05 09:47 ?4114次閱讀

阿里研發(fā)全新3D AI算法，2D圖片搜出3D模型

導(dǎo)購等領(lǐng)域的門檻。該研究成果已被AI頂會(huì)NeurIPS 2020收錄。盡管3D打印、VR等應(yīng)用場景逐漸成熟，但以3D搜索為代表的3D智能技術(shù)依舊處于早期研究階段。例如，受限于

發(fā)表于 12-04 15:49 ?3541次閱讀

圖像匹配應(yīng)用及方法

圖像匹配應(yīng)用：目標(biāo)識(shí)別、目標(biāo)跟蹤、超分辨率影像重建、視覺導(dǎo)航、圖像拼接、三維重建、視覺定位、場景深度計(jì)算方法：基于深度學(xué)習(xí)的特征點(diǎn)匹配算法、實(shí)時(shí)匹配算法、

發(fā)表于 12-26 11:08 ?7010次閱讀

深度剖析3D視覺定位技術(shù)

3D視覺定位的直接目標(biāo)是計(jì)算當(dāng)前圖像的照相機(jī)位姿，解決該問題的直接方案是建立3D點(diǎn)與2D點(diǎn)之間

發(fā)表于 04-01 14:46 ?4334次閱讀

基于熱核的3D對(duì)稱圖形匹配算法及研究

對(duì)稱混淆問題一直是圖形匹配的難點(diǎn)之一，其中，特征點(diǎn)選取、對(duì)稱點(diǎn)檢測、初始匹配對(duì)最終匹配結(jié)果影響很大針對(duì)此問題提出了一種基于熱核的3D對(duì)稱圖形匹配

發(fā)表于 05-11 11:22 ?17次下載

基于熱核的3D對(duì)稱圖形匹配算法研究

對(duì)稱混淆問題一直是圖形匹配的難點(diǎn)之一，其中，特征點(diǎn)選取、對(duì)稱點(diǎn)檢測、初始匹配對(duì)最終匹配結(jié)果影響很大針對(duì)此問題提出了一種基于熱核的3D對(duì)稱圖形匹配

發(fā)表于 06-21 14:35 ?9次下載

如何直接建立2D圖像中的像素和3D點(diǎn)云中的點(diǎn)之間的對(duì)應(yīng)關(guān)系

準(zhǔn)確描述和檢測 2D 和 3D 關(guān)鍵點(diǎn)對(duì)于建立跨圖像和點(diǎn)云的對(duì)應(yīng)關(guān)系至關(guān)重要。盡管已經(jīng)提出了大量基于學(xué)習(xí)的 2D 或 3D 局部特征描述符和檢測器，但目前的研究對(duì)

發(fā)表于 10-18 09:20 ?8784次閱讀

一種用于視覺定位的2D-3D匹配方法GAM

提出了一種新的2D-3D匹配方法，幾何輔助匹配（GAM），使用外觀信息和幾何上下文來改進(jìn)2D-3D特征匹配，可以在保持高精度的同時(shí)增強(qiáng)

發(fā)表于 02-16 10:18 ?1633次閱讀

六自由度視覺定位

基于三維模型的視覺定位通過在查詢圖像和三維模型間建立 2D-3D 對(duì)應(yīng)關(guān)系，估計(jì)相機(jī)六自由度的位姿。傳統(tǒng)的視覺定位方法通常采用人工設(shè)計(jì)的局部特征，如 SIFT，來實(shí)現(xiàn) 2D-3D

發(fā)表于 04-20 10:07 ?1155次閱讀

雙目立體匹配的四個(gè)步驟

的相關(guān)性。兩個(gè)像素?zé)o論是否為同名點(diǎn)，都可以通過匹配代價(jià)函數(shù)計(jì)算匹配代價(jià)，代價(jià)越小則說明相關(guān)性越大，是同名點(diǎn)的概率也越大。每個(gè)像素在搜索同名點(diǎn)之前，往往會(huì)指定一個(gè)視差搜索范圍

發(fā)表于 06-28 16:59 ?1180次閱讀

2D圖像和LiDAR的3D點(diǎn)云之間的配準(zhǔn)方法

建立2D-3D的對(duì)應(yīng)關(guān)系首先通過交叉區(qū)域檢測，在兩個(gè)模態(tài)中去除離群區(qū)域，然后利用交叉模態(tài)潛在空間的最近鄰原則進(jìn)行2D-3D特征匹配。

發(fā)表于 12-22 11:29 ?2239次閱讀

英倫科技的15.6寸2D-3D可切換光場裸眼3D顯示屏有哪些特點(diǎn)？

隨著科技的快速發(fā)展，人類對(duì)于視覺體驗(yàn)的追求也在不斷攀升。從平面的2D圖像到立體的3D影像，我們一直在探索如何讓虛擬世界更加逼真。如今，英倫科技憑借其創(chuàng)新實(shí)力，推出了一款革命性的顯示設(shè)備——15.6寸2D-3D可切換光場裸眼

發(fā)表于 05-28 11:17 ?367次閱讀