作者提出了DeepFusion,這是一種模塊化多模式架構(gòu),可將激光雷達(dá)、相機(jī)和radar以不同的組合融合在一起,用于3D目標(biāo)檢測(cè)。專有的特征提取器利用了每種模式,并且可以輕松地交換,使得方法簡(jiǎn)單靈活,提取的特征被轉(zhuǎn)換為鳥瞰圖,作為融合的通用表示,并在特征空間中融合模態(tài)之前執(zhí)行空間和語(yǔ)義對(duì)齊。
最后,檢測(cè)頭利用豐富的多模態(tài)特征來(lái)提高3D檢測(cè)性能。激光雷達(dá)相機(jī)、激光雷達(dá)相機(jī)雷達(dá)和相機(jī)雷達(dá)融合的實(shí)驗(yàn)結(jié)果表明了該融合方法的靈活性和有效性,在這個(gè)過(guò)程中,作者還研究了遠(yuǎn)至225米遠(yuǎn)的車輛檢測(cè)這一基本上未被探索的任務(wù),展示了本文的激光雷達(dá)聚變的好處。此外還研究了3D目標(biāo)檢測(cè)所需的激光雷達(dá)點(diǎn)密度,并舉例說(shuō)明了對(duì)不利天氣條件的魯棒性,對(duì)相機(jī)雷達(dá)融合的消融研究突出了精確深度估計(jì)的重要性。
領(lǐng)域背景
安全準(zhǔn)確的3D目標(biāo)檢測(cè)是自主駕駛的核心技術(shù),所有后續(xù)組件(如跟蹤、預(yù)測(cè)和規(guī)劃)在很大程度上取決于檢測(cè)性能,其它交通參與者的感知錯(cuò)誤可能會(huì)通過(guò)系統(tǒng)傳播,導(dǎo)致自動(dòng)駕駛車輛嚴(yán)重故障。為了防止這種錯(cuò)誤,感知系統(tǒng)需要仔細(xì)設(shè)計(jì),這仍然是一個(gè)具有挑戰(zhàn)性的研究問(wèn)題。多個(gè)傳感器和不同的模態(tài),主要是激光雷達(dá)、RGB相機(jī)和雷達(dá),通常用于應(yīng)對(duì)這一目標(biāo)檢測(cè)挑戰(zhàn)。
多個(gè)傳感器提高了系統(tǒng)冗余度,但不同的模態(tài)提高了檢測(cè)魯棒性,因?yàn)樗鼈兊幕パa(bǔ)物理特性可用于克服單一模態(tài)失效的不同駕駛場(chǎng)景。例如,激光雷達(dá)和相機(jī)在多霧天氣條件下會(huì)嚴(yán)重退化,而雷達(dá)則相對(duì)不受影響。另一方面,雷達(dá)和單目相機(jī)存在稀疏或不精確的深度估計(jì),這可以通過(guò)密集和精確的激光雷達(dá)點(diǎn)云進(jìn)行補(bǔ)償。
在過(guò)去的幾年中,利用激光雷達(dá)、camera、雷達(dá)進(jìn)行3D目標(biāo)檢測(cè)的任務(wù)取得了巨大進(jìn)展,這一趨勢(shì)由公共大規(guī)模多模態(tài)數(shù)據(jù)集推動(dòng),如nuScenes和Waymo開(kāi)放數(shù)據(jù)集。然而,研究界主要關(guān)注距離達(dá)75米的近距離3D物體檢測(cè),本問(wèn)主要強(qiáng)調(diào)遠(yuǎn)距離物體檢測(cè)的重要性,因?yàn)閷?duì)其他交通參與者及其行為的早期檢測(cè)可以實(shí)現(xiàn)更安全、更快、更平穩(wěn)的整體系統(tǒng)反應(yīng),尤其是在高速公路場(chǎng)景中。
因此,本文的目標(biāo)是一種可擴(kuò)展到200米范圍以上的目標(biāo)檢測(cè)器設(shè)計(jì),使用多個(gè)傳感器和模態(tài)的主要挑戰(zhàn)是融合大量冗余和互補(bǔ)的傳感器數(shù)據(jù),在多個(gè)傳感器與感知輸出的接口處,融合對(duì)整個(gè)系統(tǒng)的性能有著重要的影響。大多數(shù)現(xiàn)有的工作集中在融合激光雷達(dá)和RGB相機(jī)傳感器用于3D目標(biāo)檢測(cè)[8]、[17]–[24]。
較少探索的是相機(jī)雷達(dá)融合[25]–[27]和激光雷達(dá)雷達(dá)融合[28]、[29],后者分別用于語(yǔ)義熱圖預(yù)測(cè)和2D目標(biāo)檢測(cè)。作者認(rèn)為有必要為3D目標(biāo)檢測(cè)開(kāi)發(fā)一個(gè)簡(jiǎn)單而靈活的激光雷達(dá)-camera-radar融合網(wǎng)絡(luò),因?yàn)槔走_(dá)傳感器在測(cè)量原理上與激光雷達(dá)和camera互補(bǔ),雷達(dá)技術(shù)隨著市場(chǎng)需求的增長(zhǎng)而迅速發(fā)展。
作者提出了一種模塊化網(wǎng)絡(luò)架構(gòu),用于融合激光雷達(dá)、相機(jī)和雷達(dá),以實(shí)現(xiàn)精確、穩(wěn)健和遠(yuǎn)距離的3D物體檢測(cè)。該方法采用可交換的特征提取器,以產(chǎn)生單模態(tài)檢測(cè)器的良好優(yōu)化架構(gòu)。提取出的每種模態(tài)的豐富特征然后被轉(zhuǎn)換為一個(gè)共同的鳥瞰圖表示,以便在共享的潛在空間中進(jìn)行方便的融合。這種網(wǎng)絡(luò)設(shè)計(jì)使我們能夠輕松地研究不同模態(tài)組合的融合,重點(diǎn)是激光雷達(dá)相機(jī)、激光雷達(dá)相機(jī)雷達(dá)和相機(jī)雷達(dá)融合。
多模態(tài)融合的方法
RGB相機(jī)圖像捕捉物體的詳細(xì)紋理信息,廣泛應(yīng)用于物體分類,然而,camera不能直接提供深度信息,這使得3D視覺(jué)任務(wù)具有挑戰(zhàn)性,尤其是在單攝像機(jī)設(shè)置下。雷達(dá)點(diǎn)提供方位角速度和徑向距離,這有助于定位動(dòng)態(tài)目標(biāo)。雷達(dá)對(duì)各種照明和天氣條件也具有魯棒性,然而,使用雷達(dá)的3D目標(biāo)檢測(cè)受到低分辨率和錯(cuò)誤的高程估計(jì)的限制。
激光雷達(dá)點(diǎn)提供了周圍環(huán)境的準(zhǔn)確深度信息,與分別具有錯(cuò)誤深度估計(jì)或稀疏度的相機(jī)圖像或雷達(dá)點(diǎn)相比,激光雷達(dá)點(diǎn)在3D空間中具有更高的目標(biāo)細(xì)節(jié)分辨率。因此,許多3D目標(biāo)檢測(cè)benchmark(如KITTI或nuScenes)都由基于激光雷達(dá)的解決方案。
RGB相機(jī)和激光雷達(dá)是文獻(xiàn)中最常見(jiàn)的融合傳感器,此外,[35]將RGB圖像與熱圖像相結(jié)合,[36]將激光雷達(dá)點(diǎn)云與高清地圖相結(jié)合,最近越來(lái)越多的作品將RGB相機(jī)圖像與雷達(dá)相結(jié)合[25]–[27],只有[28]提出了融合激光雷達(dá)、雷達(dá)和RGB圖像的通用框架。最先進(jìn)的融合網(wǎng)絡(luò)遵循兩級(jí)([8],[17]–[19],[21],[24],[36])或一級(jí)目標(biāo)檢測(cè)pipeline([20],[22],[25],[37])。
例如,MV3D提出了一種具有RGB圖像和激光雷達(dá)點(diǎn)的兩級(jí)目標(biāo)檢測(cè)器,在第一階段,相機(jī)圖像和激光雷達(dá)點(diǎn)由傳感器專用網(wǎng)絡(luò)處理,以提取高級(jí)特征。激光雷達(dá)分支還生成region proposal,以便裁剪激光雷達(dá)和相機(jī)特征圖。在第二階段,通過(guò)一個(gè)小檢測(cè)頭融合裁剪的特征。AVOD通過(guò)融合第一和第二階段的特征來(lái)擴(kuò)展MV3D,3DCVF[23]應(yīng)用選通機(jī)制來(lái)學(xué)習(xí)每個(gè)模態(tài)的權(quán)重,MMF[36]向融合管道添加了額外的任務(wù),例如圖像深度補(bǔ)全和地面估計(jì)。
Frustum PointNet使用預(yù)先訓(xùn)練的圖像檢測(cè)器在3D空間中生成2D目標(biāo)proposal和截頭體,并應(yīng)用PointNet使用截頭體內(nèi)的激光雷達(dá)點(diǎn)進(jìn)行目標(biāo)檢測(cè)。在一級(jí)pipelines中,傳感器可以在一個(gè)特定層[22]、[25]或多個(gè)層[20]、[37]處融合。例如,PointPainting[22]應(yīng)用預(yù)先訓(xùn)練的語(yǔ)義分割網(wǎng)絡(luò)來(lái)預(yù)測(cè)逐像素圖像語(yǔ)義,并將語(yǔ)義得分附加到相應(yīng)的激光雷達(dá)點(diǎn),以進(jìn)一步進(jìn)行3D目標(biāo)檢測(cè)。ContFuse[20]通過(guò)連續(xù)的融合層逐漸融合相機(jī)和激光雷達(dá)分支的特征圖!
Deepfusion框架
圖1所示的模塊化和靈活的架構(gòu)設(shè)計(jì)基于強(qiáng)大的特征提取器,用于對(duì)單模態(tài)輸入數(shù)據(jù)進(jìn)行豐富的編碼。鳥瞰圖(BEV)轉(zhuǎn)換模塊將這些特征映射到公共表示空間中。在BEV表示中,目標(biāo)的大小被很好地保留,具有較小的方差和遮擋,因此非常適合3D目標(biāo)檢測(cè)。接下來(lái),特征對(duì)齊模塊在融合模塊聚集之前,對(duì)齊模態(tài)之間的潛在表示。最后,基于融合特征的檢測(cè)頭為3D目標(biāo)檢測(cè)提供分類和回歸輸出。
1) Feature Extractors
對(duì)于每種模態(tài)(激光雷達(dá)、相機(jī)和雷達(dá)),都有一個(gè)單獨(dú)的目標(biāo)檢測(cè)器可用于從各自的輸入數(shù)據(jù)中提取特征。為此,使用了經(jīng)過(guò)充分研究的2D-CNN架構(gòu),因?yàn)樗鼈兊拿芗?D輸出具有豐富的細(xì)節(jié)。目標(biāo)檢測(cè)器由提取多尺度特征圖的特征金字塔網(wǎng)絡(luò)(FPN)和用于分類和box回歸輸出的檢測(cè)頭組成。FPN用作融合的特征提取器,而檢測(cè)頭用于預(yù)訓(xùn)練和端到端訓(xùn)練設(shè)置中的 axillary loss。
2)Camera FPN
camera傳感器向camera FPN提供具有高度H和寬度W的形狀(H、W、3)的RGB圖像I作為輸入。首先,F(xiàn)PN提取多尺度特征圖,之后,這些特征圖是線性的 被放大到公共尺度Z、被級(jí)聯(lián)并由多個(gè)卷積層處理以用于多尺度特征混合。輸出為形狀(ZH、ZW、K)的高質(zhì)量特征FC,其中K為通道數(shù)。
3)Lidar/Radar FPN
根據(jù)PIXOR[9],激光雷達(dá)和雷達(dá)點(diǎn)云由鳥瞰圖(BEV)平面上的占用網(wǎng)格圖表示,用于特征提取,網(wǎng)格大小為高度X和寬度Y。FPN通過(guò)向下縮放和隨后向上縮放該表示來(lái)利用2D卷積處理輸入網(wǎng)格以提取特征。這些BEV特征圖用作各個(gè)分支的潛在表示,稍后在特征對(duì)齊模塊中進(jìn)行處理。
4)BEV Transformation
來(lái)自特征提取器的潛在表示被轉(zhuǎn)換為通用空間表示的鳥瞰圖,激光雷達(dá)和雷達(dá)特征已經(jīng)在BEV空間中表示,而相機(jī)特征需要圖像到BEV的轉(zhuǎn)換。對(duì)于這種轉(zhuǎn)換,文獻(xiàn)中有不同的方法,可以根據(jù)輸入表示進(jìn)行分類。像OFT[41]和[42]這樣的僅使用相機(jī)的方法通過(guò)估計(jì)深度,將垂直pillar合并到BEV表示中,將圖像投射到3D中。
結(jié)果是密集的深度,但由于單相機(jī)的深度估計(jì)不準(zhǔn)確,空間不精確。點(diǎn)云方法[20]、[22]、[36]、[43]需要3D點(diǎn)云(最好是來(lái)自激光雷達(dá)傳感器)來(lái)指導(dǎo)變換,利用已知的激光雷達(dá)和攝像機(jī)之間的傳感器標(biāo)定,將每個(gè)點(diǎn)投影到相機(jī)圖像和BEV網(wǎng)格上,在圖像像素和BEV單元之間建立特征關(guān)聯(lián)。由于點(diǎn)云的稀疏性,其結(jié)果是稀疏的表示,但由于激光雷達(dá)測(cè)量的深度精度,其空間精確。
DeepFusion使用了[43]中的點(diǎn)云驅(qū)動(dòng)方法,因?yàn)榭臻g精度對(duì)于3D目標(biāo)檢測(cè)非常重要。此外,任何傳感器模態(tài)都可以用于為圖像變換提供點(diǎn)云:激光雷達(dá)或者直接使用雷達(dá)點(diǎn)進(jìn)行變換,并且對(duì)于相機(jī)圖像,使用來(lái)自圖像檢測(cè)器的目標(biāo)中心預(yù)測(cè)作為稀疏偽點(diǎn)。
在融合過(guò)程中,來(lái)自激光雷達(dá)、雷達(dá)和攝像機(jī)的點(diǎn)云可以被聚合,使得融合對(duì)于一種傳感器的故障具有魯棒性。如果將多個(gè)相機(jī)特征投影到同一BEV網(wǎng)格單元上,可以使用均值池來(lái)合并它們。結(jié)果,形狀的圖像特征圖被轉(zhuǎn)換為BEV平面,從而展開(kāi)具有形狀的特征圖。
5)Feature Alignment
特征對(duì)齊模塊的輸入是來(lái)自激光雷達(dá)和雷達(dá)FPN的密集占用BEV特征圖和,以及來(lái)自相機(jī)的稀疏占用的變換特征圖,因此這些是不同的空間表示。此外,這些特征圖來(lái)自不同的模態(tài)和FPN主干,并編碼不同的語(yǔ)義表示。在這方面,由幾個(gè)卷積層組成的特征對(duì)齊模塊分別應(yīng)用于,以便在空間和語(yǔ)義上對(duì)齊各個(gè)表示。輸出為特征圖具有相同形狀()。
6)Fusion
融合模塊接收作為分別來(lái)自激光雷達(dá)、相機(jī)和雷達(dá)分支的對(duì)準(zhǔn)特征圖,融合模塊的任務(wù)是在潛在空間中組合這些不同的模態(tài)。為了得到融合特征圖,融合應(yīng)用操作ρ,它可以是固定操作,如池化或加權(quán)平均,也可以是可學(xué)習(xí)操作,如注意力。模塊的輸出是形狀()和比例S的融合特征圖F。
7)檢測(cè)頭
檢測(cè)頭接收融合特征圖F以生成3D邊界框的分類和回歸輸出。由于特征圖F中編碼了豐富的多模態(tài)特征,作者發(fā)現(xiàn)一個(gè)帶有幾個(gè)卷積層的小頭部就足以生成比單模態(tài)檢測(cè)器更精確、更健壯的3D目標(biāo)。
實(shí)驗(yàn)
作者進(jìn)行了詳細(xì)的實(shí)驗(yàn)來(lái)研究每個(gè)傳感器模態(tài)的特性,并驗(yàn)證所提出的融合架構(gòu)。第V-B節(jié)比較了傳感器特定檢測(cè)器和不同融合組合之間的檢測(cè)性能,隨后是第V-C節(jié)中的一些定性結(jié)果。第V-D節(jié)顯示了主要針對(duì)LC、LCR和CR融合方案的消融研究,包括天氣條件好/壞、點(diǎn)的數(shù)量、探測(cè)距離以及225米遠(yuǎn)目標(biāo)的探測(cè)性能。最后,第V-E節(jié)在具有挑戰(zhàn)性的nuScenes數(shù)據(jù)集上對(duì)本文的融合網(wǎng)絡(luò)進(jìn)行了基準(zhǔn)測(cè)試。
1)實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)主要是在作者內(nèi)部的多模態(tài)博世數(shù)據(jù)集上進(jìn)行的,這些數(shù)據(jù)集包括來(lái)自多個(gè)激光雷達(dá)、相機(jī)和雷達(dá)的記錄。數(shù)據(jù)記錄在歐洲幾個(gè)國(guó)家(主要城市、農(nóng)村地區(qū)和高速公路)和不同天氣條件(晴天、雨天、多云)。目標(biāo)被分為17類,并用3D邊界框標(biāo)記,這項(xiàng)工作使用了博世數(shù)據(jù)集的一個(gè)子集,包括大約10k個(gè)訓(xùn)練幀(訓(xùn)練集)和3k個(gè)驗(yàn)證幀(驗(yàn)證集)。
此外還使用公共nuScenes數(shù)據(jù)集[3]對(duì)本文的該方法與其他最先進(jìn)的目標(biāo)檢測(cè)器相結(jié)合。該數(shù)據(jù)集是在波士頓和新加坡用激光雷達(dá)、攝像機(jī)和雷達(dá)的讀數(shù)采集的。遵循nuScenes目標(biāo)檢測(cè)基準(zhǔn),使用標(biāo)準(zhǔn)平均精度(AP)度量來(lái)評(píng)估3D檢測(cè)。AP得分在[0%,100%]范圍內(nèi),值越大表示檢測(cè)性能越好。
論文報(bào)告了具有不同定位閾值的AP及其在所有閾值上的平均值(mAP),定位閾值由檢測(cè)與其gt(0.5、1.0、2.0、4.0米)之間的邊界框質(zhì)心的歐氏距離定義。所有檢測(cè)均在140米范圍內(nèi)進(jìn)行評(píng)估,作者分析了汽車或行人對(duì)象的檢測(cè)性能,這是自動(dòng)駕駛研究中的兩個(gè)主要目標(biāo)類別。對(duì)于消融研究,使用寬松的定位閾值(4.0米),以便補(bǔ)償不同傳感器中的時(shí)間偏差的影響,特別是在遠(yuǎn)距離和動(dòng)態(tài)對(duì)象中。
2)檢測(cè)性能的一般比較
作者比較了幾種傳感器特定檢測(cè)器(C、R、L)和具有不同傳感器組合(CR、LC、LCR)的融合網(wǎng)絡(luò)的性能。表I顯示了不同位置閾值下車輛等級(jí)的AP得分及其平均得分(mAP)。該表顯示了與傳感器專用網(wǎng)絡(luò)相比,傳感器融合明顯改善了AP。CR分別比C和R提高了20%和10%以上的mAP,LC提高了5%的mAP。LCR融合了所有傳感器模態(tài),實(shí)現(xiàn)了最佳的檢測(cè)性能,這些實(shí)驗(yàn)結(jié)果驗(yàn)證了提出的融合架構(gòu)的有效性。
為了研究每個(gè)傳感器模態(tài)的特性,圖2顯示了4.0米定位閾值下AP得分相對(duì)于檢測(cè)范圍的演變。帶有激光雷達(dá)點(diǎn)(L、LC、LCR)的檢測(cè)器性能優(yōu)于沒(méi)有激光雷達(dá)點(diǎn)的檢測(cè)器(C、R、CR),且有較大的余量。例如,L在距離100~140米時(shí)超過(guò)CR 20%AP,顯示了使用激光雷達(dá)點(diǎn)進(jìn)行遠(yuǎn)程探測(cè)的重要性。
此外,LC在更大的距離上提高了L,接近20%的AP。作者假設(shè)這是因?yàn)橄鄼C(jī)圖像提供的目標(biāo)紋理特征有助于檢測(cè),特別是當(dāng)激光雷達(dá)點(diǎn)在遠(yuǎn)距離變得稀疏時(shí)。最后,當(dāng)比較LCR和LC時(shí),作者觀察到1%的AP略微改善,這表明雷達(dá)編碼的某些目標(biāo)特征與相機(jī)和激光雷達(dá)的目標(biāo)特征互補(bǔ),例如速度。
3)定性結(jié)果
圖3顯示了論文在Bosch數(shù)據(jù)集上用于車輛檢測(cè)的LC和CR融合模型的定性結(jié)果,通過(guò)可視化非最大抑制前的目標(biāo)熱圖,比較了融合和相應(yīng)的單峰基線模型。紅色表示車輛目標(biāo)的高度可信度。融合模型能夠可靠地檢測(cè)到橙色突出顯示的基線模型遺漏對(duì)象。圖3(a)和圖3(b)顯示了帶有相機(jī)圖像的LC結(jié)果、基線L的熱圖和LC的熱圖。
在(a)中,LC能夠檢測(cè)到具有高遮擋水平的停放車輛,這是L模型所缺少的。在(b)中,LC在高速公路上檢測(cè)到一輛高度閉塞的汽車,這在僅使用激光雷達(dá)的模型中顯示出較低的得分。圖3(c)和圖3(d)顯示了相機(jī)圖像的CR融合結(jié)果、基線R的熱圖和CR模型的熱圖。在(c)中,沒(méi)有檢測(cè)到停放的車輛,因?yàn)椴糠终趽醯撵o態(tài)物體對(duì)雷達(dá)來(lái)說(shuō)特別困難,而與攝像機(jī)融合則能夠檢測(cè)到它們,在(d)雷達(dá)對(duì)遠(yuǎn)距離目標(biāo)的斗爭(zhēng)中,CR融合可靠地檢測(cè)到這些目標(biāo)。
4)詳細(xì)分析和消融研究
1) LCR融合:作者研究了天氣條件對(duì)LCR融合的影響。為此,博世數(shù)據(jù)集的驗(yàn)證集被分為晴天集(晴天或陰天,道路干燥)和惡劣天氣集(雨天,道路潮濕)?;诩す饫走_(dá)的模型L、LC和LCR根據(jù)這些分割進(jìn)行評(píng)估。圖5(a)顯示了具有4.0米閾值的汽車等級(jí)的AP得分。
在惡劣的天氣條件下,每種型號(hào)的性能都會(huì)隨著距離的增加。模型L的性能差距最大,AP下降11%(范圍為100?140米)。為了進(jìn)一步量化這種nicebad gap,論文使用mRAPD metric作為對(duì)壞天氣條件的魯棒性度量。它通過(guò)壞天氣相對(duì)于好天氣中的差A(yù)P平均值在D距離區(qū)間上平均計(jì)算得出:
使用mRAPD度量,作者發(fā)現(xiàn)僅使用激光雷達(dá)的模型L在壞天氣下減少7.1%mRAPD。這是因?yàn)橛晏鞎?huì)降低點(diǎn)云質(zhì)量,減少每個(gè)目標(biāo)的點(diǎn)數(shù),從而導(dǎo)致“缺失點(diǎn)問(wèn)題”。由于沒(méi)有互補(bǔ)傳感器,模型L無(wú)法補(bǔ)償減少激光雷達(dá)點(diǎn)的信息損失。在這種情況下,與相機(jī)圖像的融合彌補(bǔ)了“缺失點(diǎn)問(wèn)題”,只減少了4.0%mRAPD、
對(duì)于LC模型。LCR模型對(duì)天氣條件最為穩(wěn)健減少2.7%mRAPD,因?yàn)槔走_(dá)比激光雷達(dá)或相機(jī)受雨天影響小,論文進(jìn)一步研究了LCR融合在激光雷達(dá)點(diǎn)密度和檢測(cè)距離方面的性能,對(duì)L、LC和LCR模型進(jìn)行了比較,圖4(a)和圖4(b)分別顯示了汽車檢測(cè)的召回率與邊界框內(nèi)激光雷達(dá)點(diǎn)的數(shù)量和140米內(nèi)的檢測(cè)范圍有關(guān)。
與僅使用激光雷達(dá)的網(wǎng)絡(luò)相比,將激光雷達(dá)點(diǎn)與相機(jī)圖像融合顯著提高了召回率。盡管L型激光雷達(dá)使用17次以上的激光雷達(dá)觀測(cè)且85米探測(cè)范圍內(nèi)的召回率達(dá)到50%以上,但LC型激光雷達(dá)只需要8個(gè)激光雷達(dá)點(diǎn),即使在140米處,召回率也保持在近60%。在相同的激光雷達(dá)密度或探測(cè)距離下,LCR略微提高了1%的召回率。
2) CR融合:當(dāng)執(zhí)行相機(jī)-雷達(dá)融合(CR)時(shí),使用雷達(dá)觀測(cè)(R點(diǎn))的3D位置和相機(jī)分支網(wǎng)絡(luò)(C點(diǎn))預(yù)測(cè)的3D物體質(zhì)心來(lái)提取相機(jī)特征。那些camera特征被重新投影到BEV平面上,以便與雷達(dá)特征進(jìn)行融合,因此,融合性能高度依賴于3D點(diǎn)的“質(zhì)量”。
本消融研究評(píng)估了用于CR融合的3D點(diǎn)的原點(diǎn)的影響,在推理過(guò)程中,根據(jù)用R點(diǎn)和C點(diǎn)(C,R點(diǎn))訓(xùn)練的CR模型,交替使用點(diǎn)類型將相機(jī)特征投影到BEV網(wǎng)格上。作者將使用C和R點(diǎn)“CR(+C,R點(diǎn))”的推理與使用C點(diǎn)“CR”(+C點(diǎn))或R點(diǎn)“CR+R點(diǎn)”的推理進(jìn)行比較。
此外還測(cè)試了使用激光雷達(dá)點(diǎn)位置(L點(diǎn))提取相機(jī)特征時(shí)CR融合的性能,稱為“CR(+L點(diǎn))”,它作為CR融合的上限,假設(shè)C和R點(diǎn)可以匹配L點(diǎn)的密度和精度。最后使用激光雷達(dá)專用探測(cè)器“L”作為基準(zhǔn),結(jié)果如圖5(b)所示。從圖中可以看出C點(diǎn)在CR融合中的重要性:“CR(+C點(diǎn))”比“CR(+R點(diǎn))”高出5%的AP,并且在C點(diǎn)之外加上R點(diǎn)并不能改善融合,正如“CR(+2點(diǎn))”和“CR(+3點(diǎn),R點(diǎn)))”之間的類似性能所示。一個(gè)原因可能是C點(diǎn)可以用有用的相機(jī)特征捕捉更多的物體位置,而R點(diǎn)的位置不準(zhǔn)確或由于測(cè)量誤差和遮擋而丟失。
此外,將“CR(+L點(diǎn))”與其他CR模型進(jìn)行比較,論文觀察到高達(dá)40%AP的顯著性能提升。“CR(+L點(diǎn))”甚至在距離大于70米的情況下優(yōu)于僅使用激光雷達(dá)的檢測(cè)器,盡管它是在沒(méi)有任何激光雷達(dá)點(diǎn)的情況下訓(xùn)練的。結(jié)果表明,在提取相機(jī)特征時(shí),準(zhǔn)確和密集的3D位置非常重要。
3) 遠(yuǎn)距離物體檢測(cè):表II比較了用于遠(yuǎn)距離汽車檢測(cè)的L和LC模型。盡管這兩個(gè)模型的訓(xùn)練距離都只有140米,但所提出的融合架構(gòu)不斷改進(jìn)訓(xùn)練范圍之外的僅使用激光雷達(dá)的檢測(cè)器,并在200米以上達(dá)到近30%的AP,結(jié)果驗(yàn)證了該模型的長(zhǎng)期可擴(kuò)展性。
4)nuScenes數(shù)據(jù)集上評(píng)估
作者基于具有挑戰(zhàn)性的nuScenes基準(zhǔn)對(duì)基于激光雷達(dá)的模型進(jìn)行了評(píng)估,用于3D目標(biāo)檢測(cè)。由于根據(jù)預(yù)訓(xùn)練規(guī)則,在COCO上訓(xùn)練的MaskRCNN網(wǎng)絡(luò)不允許出現(xiàn)在nuScenes檢測(cè)排行榜中,因此作者使用輕量級(jí)的EfficientNetB0架構(gòu),并將來(lái)自ImageNet的預(yù)訓(xùn)練權(quán)重作為camera backbone。
此外,在將輸入圖像輸入到模型中之前,將輸入圖像從原生分辨率1600×900縮小到576×256。論文發(fā)現(xiàn)這種分辨率足以在減少推理時(shí)間的情況下獲得良好的融合結(jié)果。由于激光雷達(dá)和雷達(dá)點(diǎn)在數(shù)據(jù)集中非常稀疏,論文遵循nuScenes的常見(jiàn)做法,為論文的模型聚合多達(dá)10個(gè)激光雷達(dá)掃描和多達(dá)7個(gè)雷達(dá)掃描,并進(jìn)行自我運(yùn)動(dòng)補(bǔ)償,聚集的激光雷達(dá)掃描用于當(dāng)前相機(jī)圖像的BEV變換。作者還比較了融合方法的激光雷達(dá)基線性能,為此,使用了nuScenes驗(yàn)證分割,因?yàn)橄嚓P(guān)論文報(bào)告了它們的激光雷達(dá)基線性能。
表III比較了nuScenes驗(yàn)證集上汽車和行人等級(jí)的AP得分,論文將重點(diǎn)放在這兩個(gè)最有代表性的層級(jí)上,以排除[51]中研究的明顯的層級(jí)不平衡問(wèn)題的影響。憑借77.9和77.1的汽車和行人檢測(cè)AP,論文的PointPillar類激光雷達(dá)模型(L)提供了堅(jiān)實(shí)的基線。
將激光雷達(dá)點(diǎn)與相機(jī)圖像(LC模型)融合,分別提高了車輛和行人類別的激光雷達(dá)模型(L)的+2.5%AP和+6.6%AP得分,這表明了相機(jī)圖像紋理特征的重要性,尤其是在檢測(cè)小物體時(shí)。激光雷達(dá)相機(jī)雷達(dá)模型(LCR)獲得了最佳結(jié)果,與激光雷達(dá)模型(L)相比,AP增益分別為+3.7%和+7.5%,驗(yàn)證了論文的融合設(shè)計(jì)有效性。
審核編輯:劉清
-
傳感器
+關(guān)注
關(guān)注
2551文章
51189瀏覽量
754356 -
檢測(cè)器
+關(guān)注
關(guān)注
1文章
865瀏覽量
47714 -
RGB
+關(guān)注
關(guān)注
4文章
799瀏覽量
58562 -
激光雷達(dá)
+關(guān)注
關(guān)注
968文章
3983瀏覽量
190044
原文標(biāo)題:超過(guò)200米!多傳感器融合新基線DeepFusion:一個(gè)魯棒的LiDAR-相機(jī)-Radar融合3D檢測(cè)器
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論