0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于CNN的方法在代表性的公共數(shù)據(jù)集上的性能優(yōu)于其他方法

ml8z_IV_Technol ? 來源:未知 ? 作者:李倩 ? 2018-08-03 11:15 ? 次閱讀

摘要:隨著攝像機(jī)在智能車輛中的普遍應(yīng)用,視覺位置識別已經(jīng)成為智能車輛定位中的一個主要問題。傳統(tǒng)的解決方案是使用手工制作的位置圖像進(jìn)行視覺描述來匹配位置,但是這種描述方法對于極端的變異性卻效果不大,尤其是季節(jié)變換的時候。本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)( CNN )的新方法,通過將圖像放入預(yù)先訓(xùn)練的網(wǎng)絡(luò)模型中自動獲取圖像描述符,并通過匯集、融合和二值化操作對其進(jìn)行優(yōu)化,然后根據(jù)位置序列的漢明距離給出位置識別的相似結(jié)果。在實驗部分,我們將我們的方法與一些最先進(jìn)的算法FABMAP,ABLE-M和SeqSLAM進(jìn)行比較,以說明其優(yōu)勢。實驗結(jié)果表明,基于CNN的方法在代表性的公共數(shù)據(jù)集上的性能優(yōu)于其他方法。

Ⅰ.介紹

在不斷變化的環(huán)境中長期導(dǎo)航[2]是當(dāng)今機(jī)器人技術(shù)面臨的主要挑戰(zhàn)之一,因此視覺定位的主要問題之一是在長期和大規(guī)模環(huán)境中進(jìn)行位置識別。然而,這是一項艱巨的挑戰(zhàn),因為一些地方不得不應(yīng)對在不同周、不同月和不同的季節(jié),甚至是一天中不同時間的重大變化。這些條件變化是由外部環(huán)境引起的,如光照、天氣和季節(jié)。諸如快速外觀映射(FAB-MAP)[1]等方法已被證明可以映射大型、具有挑戰(zhàn)性的環(huán)境。最近,名為SeqSLAM [ 3 ]和ABLE - M [ 4 ]的算法定義了匹配序列圖像的方法,以提高一些條件變化的魯棒性。這些位置識別技術(shù)依賴于手工制作的功能,例如SIFT或LDB [4],非常不適合處理劇烈的視覺變化,例如從白天到夜晚,從一個季節(jié)到另一個季節(jié),或從晴朗天氣到雨。 圖1給出了不同季節(jié)的例子。

圖1.視覺位置識別系統(tǒng)必須能夠( a )成功地匹配同一位置的感知上非常不同的圖像,同時( b )也拒絕不同位置的相似圖像對之間的不正確匹配。

最近深度學(xué)習(xí)技術(shù)和卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展為理解位置識別問題提供了另一種方法。AlexNet [ 5 ]顯示,從CNNs中提取的特征經(jīng)過充分有效的訓(xùn)練,在分類任務(wù)上比手工制作的特征獲得更好的結(jié)果。[ 7 ]提出了一個有效的深度學(xué)習(xí)框架來生成用于快速圖像檢索的二進(jìn)制哈希代碼??紤]到位置識別[8]與圖像檢索相似,我們有理由期望利用基于CNN的特征的力量來設(shè)計位置識別問題的解決方案。然而,在視覺定位中,除了對目標(biāo)識別[9]的一些研究外,深度學(xué)習(xí)并沒有得到充分的應(yīng)用。在本論文中,我們提出了一種簡單而有效的方法,利用改進(jìn)的CNN模型提取圖像描述符,增強(qiáng)圖像序列的匹配以進(jìn)行視覺位置識別。所提出的方法如圖2所示,并將在后面的章節(jié)中詳細(xì)介紹。我們的方法具有以下特點:

首先,我們提出了一個基于VGG16-Places365[10]改進(jìn)的CNN架構(gòu)。我們的模型適用于通過添加,刪除和融合圖層來提取圖像特征的要求。

其次,我們將CNN層獲得的特征轉(zhuǎn)換為二進(jìn)制表示,從而降低計算復(fù)雜度。其中一個主要的好處是他們可以使用漢明距離匹配位置。

第三,我們提出了一種算法,根據(jù)SeqSLAM和ABLE - m的一些思路,基于一系列圖像來計算匹配最佳候選位置。

論文的其余部分如下所示。我們在第Ⅱ節(jié)中簡要回顧了位置識別算法和CNN模型的相關(guān)工作;我們方法的細(xì)節(jié)將在第III節(jié)中介紹;第Ⅳ節(jié)給出了三個數(shù)據(jù)集的實驗結(jié)果,比較了所提出方法的性能;最后,我們在第V節(jié)中總結(jié)了本文,并討論了未來的工作。

II.相關(guān)工作

A.卷積神經(jīng)網(wǎng)絡(luò)(CNN)

卷積神經(jīng)網(wǎng)絡(luò)可以從訓(xùn)練數(shù)據(jù)庫中學(xué)習(xí)圖像特征。在過去的五年里,隨著CNNs在計算機(jī)視覺領(lǐng)域變得越來越重要,人們已經(jīng)做出了許多嘗試來改進(jìn)AlexNet [ 5 ]的原始架構(gòu),以獲得更高的準(zhǔn)確性,比如VGG 11、GoogLeNet 6、ResNet 10等??紤]到位置識別與圖像檢索相似,而且它是獨立的,K. Lin等人[ 7 ]提出了一個有效的深度學(xué)習(xí)框架來生成用于快速圖像檢索的二進(jìn)制哈希代碼。

場景識別是另一個與視覺位置識別非常相似的領(lǐng)域,盡管這是深度學(xué)習(xí)中的一項分類任務(wù)。位置[10]包含超過1000萬個包含365個獨特場景類別的圖像,是用于訓(xùn)練場景識別CNN模型的數(shù)據(jù)集?;赑laces數(shù)據(jù)集和最先進(jìn)的CNNs,許多研究人員培訓(xùn)了一些CNNs模型,并將其展示給其他研究人員使用。位置識別可以被看作是圖像相似性匹配的一項任務(wù),一些研究人員通過預(yù)先訓(xùn)練的CNNs模型來實現(xiàn)。從深度學(xué)習(xí)的進(jìn)步中得到啟發(fā),我們提出了一個問題,我們可以利用深度CNN來實現(xiàn)視覺位置識別嗎?

B.視覺位置識別

與其他傳感器相比,視覺傳感器具有價格低廉、體積小等優(yōu)點,正成為當(dāng)今最受歡迎的機(jī)器人傳感器。循環(huán)閉包檢測的一種流行方法是基于快速外觀的映射(FAB-MAP)[1]。所提出的FAB-MAP使用單個關(guān)鍵點描述符,即尺度不變特征變換(SIFT),以及用于界標(biāo)描述的離線詞袋描述符(BoW)和用于預(yù)測循環(huán)閉包候選的貝葉斯過濾器。然而,F(xiàn)AB-MAP有一些不足之處,需要提前離線訓(xùn)練,并且在環(huán)境變化劇烈的場景中具有較差的穩(wěn)健性。

如今,視覺定位面臨的主要挑戰(zhàn)是在長期大規(guī)模環(huán)境中的位置識別。為了在長期環(huán)境中提高拓?fù)涠ㄎ坏男?,許多其他技術(shù)被提了出來。在這方面,一個成功的方法是SeqSLAM,它在相同的路線下被評估為具有挑戰(zhàn)性的條件。它引入了使用序列圖像而不是單個圖像來確定位置的思想,以改善長期方案的性能。

使用序列而不是單一圖像利用了移動相機(jī)獲取的視覺數(shù)據(jù)的時間一致性,從而減少了自我相似環(huán)境識別中的誤報數(shù)量,并提高了對局部場景變化的容忍度。這個思想被ABLE-M [4]算法使用,它基本上減少了處理后的圖像,并將全局二進(jìn)制描述符與漢明距離的快速計算進(jìn)行了比較。

深度學(xué)習(xí)技術(shù)和卷積神經(jīng)網(wǎng)絡(luò)的最新發(fā)展為理解位置識別問題提供了一種替代方法。Z. Chen, 等人[8]結(jié)合CNNs提取的有效特征,提出了一種基于Overfeat的視覺場所識別方法;X. Gao等人提出了一種新穎的方法,該方法采用改進(jìn)的堆疊去噪自動編碼器(SDA)來解決視覺SLAM系統(tǒng)的閉環(huán)檢測問題;D. Bai等人[13]給出了一種融合AlexNet和SeqSLAM來檢測循環(huán)閉包的方法。最近的建議啟發(fā)了我們目前的工作,旨在提供一種基于改進(jìn)和簡化的CNN特征的更穩(wěn)健和有效的位置識別算法。

III.我們的方法

在這一部分,我們描述了我們提出的方法的主要特征:CNN模型、提取圖像描述符和相似性匹配。圖2顯示出了所提出的框架。

A.CNN模型

在第Ⅱ節(jié)A部分中,我們討論了今年麻省理工學(xué)院計算機(jī)科學(xué)和人工智能實驗室提出的Places數(shù)據(jù)集,實驗室現(xiàn)在正根據(jù)數(shù)據(jù)集舉辦2017年地方挑戰(zhàn)賽[15]。他們希望更多的研究人員使用他們的數(shù)據(jù)集來訓(xùn)練CNN用于場景識別任務(wù),并提供基于CNN模型的Places365-CNN,例如AlexNet,VGG,GoogLeNet,ResNet在他們的數(shù)據(jù)集上訓(xùn)練。根據(jù)論文的實驗結(jié)果,我們選擇VGG16-Places365作為位置識別的基本模型,在多個數(shù)據(jù)集上具有最佳性能。

從LeNet-5 [16]開始,卷積神經(jīng)網(wǎng)絡(luò)通常具有標(biāo)準(zhǔn)的結(jié)構(gòu)堆疊卷積層(可選地,隨后是批量歸一化和最大池化)之后是一個或多個完全連接的層。VGG 16 - Place 335與VGG具有相同的結(jié)構(gòu),它具有16個重量層,包括13個卷積層和3個完全連接的層。Places數(shù)據(jù)集包含超過1000萬個包含365個唯一場景類別的圖像,因此最后一個完全連接的圖層的尺寸應(yīng)修改為365。這13個卷積層被劃分為5個部分,其中一個部分的每一層都有相同的數(shù)據(jù)維度。每個部分后面都有一個最大匯集層,該層通過2 x2像素窗口執(zhí)行,跨距為2。卷積層的堆疊之后是三個完全連接的( FC )層:前兩個層各有4096個信道,第三個層執(zhí)行365路位置分類,因此包含365個信道(每類一個)。除了這些層之外,最后一層是soft-max層,并且所有隱藏層都配備有整流(ReLU)非線性。表1給出了VGG16-Places365網(wǎng)絡(luò)的權(quán)重層和池化層的輸出尺寸。

圖2.視覺位置識別方法的全局系統(tǒng)架構(gòu)。(從Nordland數(shù)據(jù)集的兩個原因捕獲圖像,我們將序列定義為i和j。最后,圖片是相似度矩陣的可視化。)

通過深層架構(gòu),CNN能夠在不同的抽象層次上學(xué)習(xí)高級語義特性。有了深度架構(gòu),CNN能夠在不同抽象級別學(xué)習(xí)高級語義特征。然而,圖像的空間信息通過完全連接的層丟失,這在視覺位置識別等應(yīng)用中可能是不理想的。在[ 8 ] [ 13 ]的實驗結(jié)果表明,在卷積層產(chǎn)生的基于CNN的深層特征,在環(huán)路閉合檢測中比全連接層特征獲得更好的性能。根據(jù)這些,我們選擇VGG16-Places365的三個層'conv3_3','conv4_3'和'conv5_3'來提取我們?nèi)蝿?wù)的圖像特征。此外,我們對CNN模型進(jìn)行了大量修改,包括添加幾個池層和刪除完全連接的層,以減少特征尺寸并節(jié)省圖像處理時間。然后,在將三層的特征調(diào)整為一維后,我們使用連接[ 17 ]的操作來融合它們。我們做了很多實驗來調(diào)整增加的池化層的網(wǎng)絡(luò)參數(shù),您可以在第Ⅳ節(jié)中看到實驗細(xì)節(jié)。最終的模型結(jié)構(gòu)如圖3所示。

B.用于位置識別的特征描述符

視覺特征是影響圖像匹配準(zhǔn)確性的最重要因素之一。我們的方法使用從上面給出的CNN模型中提取的CNN特征,而不是傳統(tǒng)手工制作的特征來計算圖像之間的相似性。浮點是我們最終從模塊中獲取的CNN功能的類型。我們將該特征命名為Fcnn,其尺寸為1×100352。降低圖像匹配的計算成本的實用方法是將特征向量轉(zhuǎn)換為二進(jìn)制代碼,這可以使用漢明距離快速比較。我們首先將其每個元素標(biāo)準(zhǔn)化為8位整數(shù)(0~255),然后得到整數(shù)特征如(2)所示。然后,可以很容易地轉(zhuǎn)換為二進(jìn)制特征。

C.二值化的有效匹配

使用二進(jìn)制描述符匹配漢明距離比使用L2范數(shù)匹配描述符更快更有效,并且在此用于計算圖像之間的距離。在很多研究中,我們注意到他們通過匹配單個圖像來計算兩幀的相似度。如果我們將兩個圖像的特征描述符定義為,我們可以計算它們的漢明距離HmDij來表示相似性。計算過程如(3)所示。

因為在長期和大規(guī)模的環(huán)境中表現(xiàn)更好,所以像[ 3 ] [ 4 ]等作品中介紹的那樣,位置被認(rèn)為是圖像序列而不是單個圖像。在我們的方法中,我們將Slength定義為匹配當(dāng)前幀的圖像序列長度。因此,第i幀的圖像序列由范圍(i - Slength+1,i)中的連續(xù)圖像組成,并且我們將,...,連接為用于匹配的最終特征Fi。在這種情況下,我們可以使用(4)的序列信息來獲得圖像之間的距離。該距離是不同地方的相似度得分,我們將其保持在相似度矩陣(M)中。如果我們發(fā)現(xiàn)兩幀之間的距離小于給定的閾值,那么這些位置就會被成功識別。

表一. VGG16 - Place335網(wǎng)絡(luò)各層的輸出尺寸

圖3.基于vg16 - place 335的CNN模型用于視覺位置識別。(所有完全連接的層都被移除,三個名為pool 3 _ fuse、pool 4 _ fuse、pool 5 _ fuse的池層分別被添加到Conv 3 _ 3、Conv 4 _ 3和Conv 5 _ 3的背面。三個輪詢層的輸出被融合為最終的CNN特征。)

IV.績效評估

在本節(jié)中,演示了一組離線實驗來評估我們方法的性能。我們的實現(xiàn)是一個基于Caffe [18]的python程序,它是一個開源的深度學(xué)習(xí)框架。我們首先介紹數(shù)據(jù)集和評估指標(biāo),然后與公共數(shù)據(jù)集上的幾種著名算法的性能進(jìn)行比較。

A.數(shù)據(jù)集和評估指標(biāo)

用于實驗的第一個數(shù)據(jù)集是FAB-MAP最初使用的City Center [1]數(shù)據(jù)集。它是一個基本的數(shù)據(jù)集,廣泛應(yīng)用于閉環(huán)檢測和位置識別研究實驗,因此我們使用它來調(diào)整和優(yōu)化網(wǎng)絡(luò)模型。然后我們使用Nordland[2]數(shù)據(jù)集進(jìn)行了測試,這些數(shù)據(jù)集是使用單目攝像機(jī)在長期條件下記錄的。根據(jù)CNN模型的參數(shù)設(shè)置,我們將在每張圖像進(jìn)入網(wǎng)絡(luò)之前對其進(jìn)行224×224的新尺寸預(yù)處理。最常用的位置識別算法評估方法是繪制Precision-Recall(PR)曲線,該曲線提供了算法性能的更多信息。其主要要素定義如下:精度定義為檢測總數(shù)的真正位置數(shù);Recall被定義為真實地點的數(shù)量與地面真實地點的數(shù)量之比。(5)顯示了計算過程。我們通過掃描不同的距離閾值θ來獲得PR曲線,如(6)所示。

B.城市中心數(shù)據(jù)集中的結(jié)果

第一個數(shù)據(jù)集,城市中心[1],在康明斯和紐曼市中心附近的公共道路上收集。它包含1237對大小為640×480的圖像,由兩個攝像頭(左和右)在機(jī)器人上拍攝,機(jī)器人以每1.5米一個圖像的頻率穿過環(huán)境。這些圖像包括動態(tài)物體,此外,它是在有陽光的大風(fēng)天收集的,這使得豐富的樹葉和陰影特征不穩(wěn)定,如圖4 ( b )和4 ( c )所示。提供了數(shù)據(jù)集GPS信息和地面實況。機(jī)器人繞一個環(huán)路行進(jìn)兩次,總路徑長度為2 km,當(dāng)機(jī)器人繞第二個環(huán)路運行時,我們可以在這些位置實現(xiàn)位置識別,標(biāo)記為紅色曲線,如圖4(a)所示。

圖4.城市中心數(shù)據(jù)集。( ( a )是GPS信息的可視化,紅色曲線是機(jī)器人運行的第二個環(huán),我們應(yīng)該在這些位置進(jìn)行位置識別。( b )和( c )是該數(shù)據(jù)集的兩對代表性圖片。)

由于網(wǎng)絡(luò)的輸入只能是一個圖像,我們只將左攝像頭的圖像作為我們的測試集。我們還在機(jī)器人退出循環(huán)后修改了一些地面實況值,因為當(dāng)雙目機(jī)器人在相同位置向后移動時,一個攝像機(jī)的圖像完全不同。在這種情況下,不可能實現(xiàn)位置識別。

首先,我們在VGG16-Places365的每一層上做一些實驗,PR曲線如圖5(a)所示。如預(yù)期的,結(jié)果證明提取卷積特征獲得了最佳效果,并且每一層的性能都優(yōu)于FABMAP算法的開放工具箱open FABMAP [ 20 ]。圖5的其他部分分別給出了添加的匯集層的實驗結(jié)果,“pool3_fuse”,“pool4_fuse”和“pool5_fuse”。通過調(diào)整這些層的類型,MAX或AVE,以及濾波器的尺寸,2×2、4×4、7×7、8×8或14×14,我們在綜合考慮實時性和準(zhǔn)確性的情況下獲得了每一層的最佳參數(shù)設(shè)置。當(dāng)特征維數(shù)小于某個值時,算法的效果急劇惡化,當(dāng)濾波器的大小變大時,最大濾波器優(yōu)于平均濾波器。pool5_fuse圖層使用大小為2×2的平均過濾器,pool3_fuse圖層和pool4_fuse圖層都使用大小為4×4的最大過濾器。此外,我們給出了通過這些設(shè)置的多層特征融合方法獲得的實驗結(jié)果,它們也在圖5中示出。很容易看出融合方法比單層獲得了更好的結(jié)果,我們認(rèn)為原因是多層的特征融合包含更多的空間信息。我們將此作為最終的CNN模型,如最后的第3接A部分所述。

C.Nordland數(shù)據(jù)集的結(jié)果

Nordland 數(shù)據(jù)集 [ 2 ]記錄了挪威北部728公里的火車旅程,在四個不同的季節(jié),火車前方的同一視角。因此,數(shù)據(jù)集可以被認(rèn)為包含一個循環(huán),并遍歷四次。如圖6所示,風(fēng)景已經(jīng)發(fā)生了巨大的變化,從冬天的積雪覆蓋到春天和夏天的新鮮植被和綠色植被,再到秋天的彩色樹葉。大多數(shù)旅程都是通過自然風(fēng)光,但火車也經(jīng)過市區(qū),偶爾停留在火車站或信號站。這可能是目前用于長期視覺位置識別評估的最長和最具挑戰(zhàn)性的數(shù)據(jù)集。在處理之后,數(shù)據(jù)被確定為25fps并且大小為1920×1080,并且圖像序列被同步,即,在相同時間點數(shù)據(jù)處的每個序列表示相同的位置。

圖5.城市中心數(shù)據(jù)集的實驗結(jié)果。(關(guān)于VGG16-Places365的不同層的曲線顯示在(a)中。(b),(c),(d)顯示了添加的具有不同設(shè)置的池層的結(jié)果)

在我們的方法中,我們關(guān)注匹配圖像序列的問題,而不是識別位置的單一圖像。在Nordland數(shù)據(jù)集中,我們首先通過比較春季和秋季之間的序列來進(jìn)行不同長度圖像序列的實驗。該方法可以在長期和大規(guī)模的視覺位置識別中獲得更好的結(jié)果,如圖7所示。注意圖片中的PR曲線,我們可以發(fā)現(xiàn),隨著Slength的增加,算法的效果越來越好,這證明了我們想法的正確性。但是當(dāng)Slength大于200時,算法的效果開始受到限制。我們分析當(dāng)Slength足夠長以包含一些無法匹配的特定位置時會發(fā)生這種情況,可以將其視為噪聲。考慮到準(zhǔn)確性和復(fù)雜性,25 fps數(shù)據(jù)的最佳序列長度配置為200。因此,我們在其他實驗中使用Slength= 200。然后,我們將我們的方法的性能與主要的最新工作進(jìn)行比較,包括FAB-MAP,SeqSLAM和ABLE-M算法。由于OpenFABMAP [20],OpenSeqSLAM [2]和OpenABLE [21]的作者開發(fā)的源代碼,實現(xiàn)了評估。如果我們不指定任何參數(shù),我們將使用開源代碼中的默認(rèn)設(shè)置。

圖6.每個季節(jié)的Nordland 數(shù)據(jù)集的示例圖像。

圖7.不同Slength的PR曲線。

圖8. Nordland數(shù)據(jù)集的實驗結(jié)果。

現(xiàn)在,我們處理了六種組合的結(jié)果,春天對比夏天,春天對比秋天,春天對比冬天,夏天對比秋天,夏天對比冬天,秋天對比冬天,對應(yīng)的序列。這些評估由圖8中所示的PR曲線描述,其中我們可以觀察到不同季節(jié)對位置識別性能的影響。值得注意的是,沒有匹配圖像序列的OpenFABMAP已經(jīng)取得了比其他方法更差的結(jié)果。除了位置識別,準(zhǔn)確率為100 %的Recall也是一個很好的性能指標(biāo)。以100%的精度,我們的方法比其他方法實現(xiàn)了更好的Recall。應(yīng)該注意到,受開始時序列的影響并不完整,基于序列的方法實現(xiàn)100%Recall是一個限制。在相同條件下,冬季實驗表現(xiàn)較差,因為積雪增加了識別難度。

D.討論

從以上三部分的實驗中,我們可以看到,與傳統(tǒng)的使用手工特征描述圖像的方法相比,我們基于CNN的方法在位置識別任務(wù)中具有很大的優(yōu)勢。我們給出如下原因:

(1)通過CNN對大量數(shù)據(jù)進(jìn)行學(xué)習(xí)的圖像描述符可以更準(zhǔn)確地描述圖像之間的差異,

(2)通過融合三個最佳CNN層保留更多圖像空間信息的特征,

(3)基于圖像序列的識別消除了噪聲場所的影響。

此外,在上述實驗中,我們的方法在某些地方?jīng)]有取得好的識別結(jié)果。例如,在連續(xù)多幀圖像中,大部分區(qū)域被移動的物體覆蓋,或者被天空和地面積雪占據(jù)。目前,所有識別算法的性能都很差,這是長期和大規(guī)模環(huán)境下視覺位置識別最難解決的問題。

V.結(jié)論

在這項工作中,我們提出了一個簡單有效的基于VGG的CNN框架來提取用于位置識別的圖像描述符。我們在卷積層“conv3_3”,“conv4_3”和“conv5_3”后面添加了三個具有合適濾波器的池化層,并將它們的輸出融合為描述符組合二值化。此外,用于描述地點的最終二進(jìn)制字符串是從圖像序列而不是單個圖像中提取的,并且通過漢明距離進(jìn)行匹配以進(jìn)行識別。本文的想法來自我們之前關(guān)于大規(guī)模交通場景的工作[19]。我們的方法已經(jīng)證明,它可以通過與其他最先進(jìn)的方法(如FABMAP,ABLE-M或SeqSLAM)在季節(jié)、環(huán)境或視點發(fā)生極端變化的具有代表性的公共數(shù)據(jù)集上進(jìn)行比較,成功地實現(xiàn)長期和大規(guī)模的視覺位置識別。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:基于CNN的長期和大規(guī)模環(huán)境中的視覺位置識別

文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    TF之CNNCNN實現(xiàn)mnist數(shù)據(jù)預(yù)測

    TF之CNNCNN實現(xiàn)mnist數(shù)據(jù)預(yù)測 96%采用placeholder用法+2層C及其max_pool法+隱藏層dropout法+輸出層softmax法+目標(biāo)函數(shù)cross_e
    發(fā)表于 12-19 17:02

    LED獲得白色光的方法

    LED獲得白色光的方法有多種。這里只介紹代表性的發(fā)光方法。1) 藍(lán)色LED + 黃色熒光體藍(lán)色LED與其輔助色即黃色熒光體組合,獲得白色光。該方式與其他方式相比,結(jié)構(gòu)簡單、效率高,因此
    發(fā)表于 04-23 22:00

    常見的幾種代表性的HDL語言

    HDL發(fā)展?fàn)顩r是怎樣的?常見的幾種代表性的HDL語言硬件描述語言HDL得未來發(fā)展
    發(fā)表于 04-28 06:44

    有沒有其他方法潘多拉開發(fā)板能夠?qū)崿F(xiàn)網(wǎng)絡(luò)播放功能

    的MCU就無法使用該功能呢?另外,作為深度音樂控,本人對ART-Pi的art_pi_net_player網(wǎng)絡(luò)音樂播放器十分感興趣,按照目前的情況看是無法潘多拉開發(fā)板實現(xiàn)該功能了,那么有沒有大神能夠指導(dǎo)一下有沒有其他方法能夠?qū)?/div>
    發(fā)表于 08-18 09:54

    有沒有其他方法潘多拉開發(fā)板能夠?qū)崿F(xiàn)網(wǎng)絡(luò)播放功能呢

    的mcu就無法使用該功能呢?另外,作為深度音樂控,本人對ART-Pi的art_pi_net_player網(wǎng)絡(luò)音樂播放器十分感興趣,按照目前的情況看是無法潘多拉開發(fā)板實現(xiàn)該功能了,那么有沒有大神能夠指導(dǎo)一下有沒有其他方法能夠?qū)?/div>
    發(fā)表于 10-19 11:08

    AXD程序除了重新加載還有其他方法或按鍵嗎

    請教各位:我 AXD 中單步運行一段程序后,想回到程序的開始重新運行,除了重新加載,還有其他方法或按鍵?
    發(fā)表于 11-15 11:45

    有沒有其他方法可以訪問an5471設(shè)備的引導(dǎo)加載程序呢?

    我注意到 an5471 說用于刷新引導(dǎo)加載程序的 uart 接口僅在 PA8 和 PA9 可用,但這些引腳 32 引腳版本不存在。有沒有其他方法可以訪問此設(shè)備
    發(fā)表于 12-13 06:14

    其他方法可以獲取設(shè)備rpmsg_sdb嗎?

    rpmsg_sdb 設(shè)備。是否有此驅(qū)動程序的 A7 預(yù)構(gòu)建映像?如果沒有,我如何使用 bitbake 將rpsmg-sdb-mod Yocto 配方添加到分發(fā)教程的圖像中?以防萬一,還有其他方法可以獲取設(shè)備rpmsg_sdb嗎?
    發(fā)表于 12-14 08:30

    基于卷積神經(jīng)網(wǎng)絡(luò)CNN的車牌字符識別方法

    化、細(xì)化、字符區(qū)域居中等預(yù)處理,去除復(fù)雜背景,得到簡單的字符形狀結(jié)構(gòu);然后,利用所提出的CNN模型對預(yù)處理后的車牌字符進(jìn)行訓(xùn)練、識別。實驗結(jié)果表明,所提方法能夠達(dá)到99. 96%的正確識別率,
    發(fā)表于 11-30 14:24 ?21次下載
    基于卷積神經(jīng)網(wǎng)絡(luò)<b class='flag-5'>CNN</b>的車牌字符識別<b class='flag-5'>方法</b>

    基于CNN的圖文融合媒體的情感分析方法

    基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的圖文融合媒體的情感分析方法。該方法融合圖像特征與三個不同級別(詞語級、短語級和句子級)的文本特征構(gòu)建CNN模型,以分析比較不同層次的語義特征對情感預(yù)測的影響
    發(fā)表于 12-23 09:45 ?0次下載
    基于<b class='flag-5'>CNN</b>的圖文融合媒體的情感分析<b class='flag-5'>方法</b>

    情感分析中使用知識的一些代表性工作

    標(biāo)注數(shù)據(jù)不足,實際應(yīng)用過程中泛化能力差的局面。為了彌補這一缺點,學(xué)者們嘗試引入外部情感知識為模型提供監(jiān)督信號,提高模型分析性能。本文從常見的外部情感知識類型出發(fā),簡要介紹情感分析中
    的頭像 發(fā)表于 11-02 16:05 ?2721次閱讀
    <b class='flag-5'>在</b>情感分析中使用知識的一些<b class='flag-5'>代表性</b>工作

    基于LSTM和CNN融合的深度神經(jīng)網(wǎng)絡(luò)個人信用評分方法

    包括時間維度和行為維度的矩陣,通過融合基于注意力機(jī)制的LSTM模型和CNN模型2個子模型,從用戶原始行為數(shù)據(jù)中提取序列特征和局部特征。真實數(shù)據(jù)
    發(fā)表于 03-19 15:19 ?32次下載
    基于LSTM和<b class='flag-5'>CNN</b>融合的深度神經(jīng)網(wǎng)絡(luò)個人信用評分<b class='flag-5'>方法</b>

    實現(xiàn)關(guān)鍵電流節(jié)省的其他方法是什么

    利用這些具有超低靜態(tài)電流的汽車 LDO,您將能夠顯著地改善汽車電池的使用壽命。您在系統(tǒng)中實現(xiàn)關(guān)鍵電流節(jié)省的其他方法是什么?  
    的頭像 發(fā)表于 02-06 09:12 ?1069次閱讀

    新華三入選 “代表性中國數(shù)據(jù)庫廠商”

     近日,全球知名顧問與調(diào)研機(jī)構(gòu)Gartner發(fā)布《中國數(shù)據(jù)庫管理系統(tǒng)市場指南》,紫光股份旗下新華三團(tuán)入選 “代表性中國數(shù)據(jù)庫廠商”,分布式數(shù)據(jù)
    的頭像 發(fā)表于 04-14 15:36 ?1337次閱讀

    為什么傳統(tǒng)CNN紋理分類數(shù)據(jù)的效果不好?

    作者:TraptiKalra來源:AI公園,編譯:ronghuaiyang導(dǎo)讀本文分析了常見的紋理數(shù)據(jù)以及傳統(tǒng)CNN紋理數(shù)據(jù)
    的頭像 發(fā)表于 09-23 14:26 ?848次閱讀
    為什么傳統(tǒng)<b class='flag-5'>CNN</b><b class='flag-5'>在</b>紋理分類<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b><b class='flag-5'>上</b>的效果不好?