多模態(tài)融合是感知自動駕駛系統(tǒng)的一項基本任務(wù),最近引起了許多研究人員的興趣。然而,由于原始數(shù)據(jù)噪聲大、信息利用率低以及多模態(tài)傳感器的無對準(zhǔn),達(dá)到相當(dāng)好的性能并非易事。本文對現(xiàn)有的基于多模態(tài)自動駕駛感知任務(wù)方法進(jìn)行了文獻(xiàn)綜述。分析超過50篇論文,包括攝像頭和激光雷達(dá),試圖解決目標(biāo)檢測和語義分割任務(wù)。與傳統(tǒng)的融合模型分類方法不同,作者從融合階段的角度,通過更合理的分類法將融合模型分為兩大類,四小類。此外,研究了當(dāng)前的融合方法,就潛在的研究機(jī)會展開討論。
最近,用于自動駕駛感知任務(wù)的多模態(tài)融合方法發(fā)展迅速,其從跨模態(tài)特征表示和更可靠的模態(tài)傳感器,到更復(fù)雜、更穩(wěn)健的多模態(tài)融合深度學(xué)習(xí)模型和技術(shù)。然而,只有少數(shù)文獻(xiàn)綜述集中在多模態(tài)融合方法本身的方法論上,大多數(shù)文獻(xiàn)都遵循傳統(tǒng)規(guī)則,將其分為前融合、深度(特征)融合和后融合三大類,重點關(guān)注深度學(xué)習(xí)模型中融合特征的階段,無論是數(shù)據(jù)級、特征級還是提議級。首先,這種分類法沒有明確定義每個級別的特征表示。其次,它表明,激光雷達(dá)和攝像頭這兩個分支在處理過程中始終是對稱的,模糊了激光雷達(dá)分支中融合提議級特征和攝像頭分支中融合數(shù)據(jù)級特征的情況。綜上所述,傳統(tǒng)的分類法可能是直觀的,但對于總結(jié)最近出現(xiàn)的越來越多的多模態(tài)融合方法來說卻很落后,這使得研究人員無法從系統(tǒng)的角度對其進(jìn)行研究和分析。
如圖是自動駕駛感知任務(wù)的示意圖:
深度學(xué)習(xí)模型僅限于輸入的表示。為了實現(xiàn)該模型,需要在數(shù)據(jù)輸入模型之前,通過一個復(fù)雜的特征提取器對原始數(shù)據(jù)進(jìn)行預(yù)處理。
至于圖像分支,大多數(shù)現(xiàn)有方法保持與下游模塊輸入的原始數(shù)據(jù)相同的格式。然而,激光雷達(dá)分支高度依賴于數(shù)據(jù)格式,這種格式強(qiáng)調(diào)不同的特性,并對下游模型設(shè)計產(chǎn)生巨大影響。因此,這里將其總結(jié)為基于點、基于體素和基于二維映射的點云數(shù)據(jù)格式,以適應(yīng)異構(gòu)深度學(xué)習(xí)模型。
數(shù)據(jù)級融合或前融合方法,通過空間對齊直接融合不同模式的原始傳感器數(shù)據(jù)。特征級融合或深度融合方法通過級聯(lián)或元素相乘在特征空間中混合跨模態(tài)數(shù)據(jù)。目標(biāo)級融合方法將各模態(tài)模型的預(yù)測結(jié)果結(jié)合起來,做出最終決策。
一種新的分類法,將所有融合方法分為強(qiáng)融合和弱融合,如圖展示了二者之間的關(guān)系:
為性能比較,KITTI benchmark的3D檢測和鳥瞰目標(biāo)檢測。如下兩個表分別給出BEV和3D的KITTI測試數(shù)據(jù)集上多模態(tài)融合方法的實驗結(jié)果。
根據(jù)激光雷達(dá)和攝像頭數(shù)據(jù)表示的不同組合階段,將強(qiáng)融合再分為前融合、深度融合、后融合和非對稱融合四類。作為研究最多的融合方法,強(qiáng)融合近年來取得了許多杰出的成就。
如圖所示:強(qiáng)融合的每個小類都高度依賴于激光雷達(dá)點云,而不是攝像頭數(shù)據(jù)。
前融合。數(shù)據(jù)級融合是一種通過原始數(shù)據(jù)級的空間對齊和投影直接融合每個模態(tài)數(shù)據(jù)的方法,與之不同的是,前融合在數(shù)據(jù)級是融合激光雷達(dá)數(shù)據(jù),在數(shù)據(jù)級或特征級則融合攝像頭數(shù)據(jù)。一個例子如圖所示:
在激光雷達(dá)分支,點云可以是有反射圖、體素化張量、前視圖/距離視圖/鳥瞰視圖以及偽點云等形式。盡管所有這些數(shù)據(jù)都具有不同的內(nèi)在特征,與激光雷達(dá)主干網(wǎng)高相關(guān),但除了偽點云之外,大多數(shù)據(jù)通過基于規(guī)則的處理生成。此外,與特征空間嵌入相比,該階段的數(shù)據(jù)仍然具有可解釋性,因此所有這些激光雷達(dá)數(shù)據(jù)表示都直觀可視。
對于圖像分支,嚴(yán)格的數(shù)據(jù)級定義應(yīng)該只包含RGB或灰度等數(shù)據(jù),缺乏通用性和合理性。與前融合的傳統(tǒng)定義相比,攝像頭數(shù)據(jù)放松為數(shù)據(jù)級和特征級數(shù)據(jù)。特別是,這里將有利于三維目標(biāo)檢測的圖像語義分割任務(wù)結(jié)果作為特征級表示,因為這些“目標(biāo)級”特征與整個任務(wù)的最終目標(biāo)級提議不同。
深度融合。深度融合方法在激光雷達(dá)分支的特征級對跨模態(tài)數(shù)據(jù)融合,但在圖像分支的數(shù)據(jù)級和特征級做融合。例如,一些方法使用特征提取器分別獲取激光雷達(dá)點云和攝像頭圖像的嵌入表示,并通過一系列下游模塊將特征融合到兩種模式中。然而,與其他強(qiáng)融合方法不同,深度融合有時以級聯(lián)方式融合特征,這兩種方法都利用原始和高級語義信息。深度融合的一個例子如圖所示:
后融合。后融合,也稱為目標(biāo)級融合,指的是融合每個模態(tài)中流水線結(jié)果的方法。例如,一些后融合方法利用激光雷達(dá)點云分支和攝像頭圖像分支的輸出,并基于兩種模式的結(jié)果進(jìn)行最終預(yù)測。請注意,兩個分支提議的數(shù)據(jù)格式應(yīng)與最終結(jié)果相同,但在質(zhì)量、數(shù)量和精度上有所不同。后融合是一種多模態(tài)信息優(yōu)化最終提議的集成方法(ensemble method)。如圖是后融合的一個例子:
非對稱融合。除了早融合、深度融合和后融合外,一些方法以不同的權(quán)限處理跨模態(tài)分支,因此融合一個分支的目標(biāo)級信息和其他分支的數(shù)據(jù)級或特征級信息,定義為非對稱融合。強(qiáng)融合的其他方法將兩個分支視為似乎相等的狀態(tài),非對稱融合至少有一個分支占主導(dǎo)地位,而其他分支提供輔助信息來執(zhí)行最終任務(wù)。如圖是非對稱融合的一個例子:可能具有提議的相同提取特征,但非對稱融合只有來自一個分支的一個提議,而后融合有來自所有分支的提議。
與強(qiáng)融合不同,弱融合方法不會以多種方式直接從分支融合數(shù)據(jù)/特征/目標(biāo),而是以其他方式操作數(shù)據(jù)。基于弱融合的方法通常使用基于規(guī)則的方法來利用一種模態(tài)數(shù)據(jù)作為監(jiān)督信號,以指導(dǎo)另一模態(tài)的交互。如圖展示了弱融合模式的基本框架:
有可能圖像分支中CNN的2D提議導(dǎo)致原始激光雷達(dá)點云出現(xiàn)截錐體(frustum)。然而,與圖像特征組合非對稱融合不同,弱融合直接將選擇的原始激光雷達(dá)點云輸入到激光雷達(dá)主干網(wǎng),以輸出最終提議。
有些工作不能簡單地定義為上述任何類型的融合,在整個模型框架中采用多種融合方法,例如深度融合和后融合的結(jié)合,也有將前融合和深度融合結(jié)合在一起。這些方法從模型設(shè)計看存在冗余,這不是融合模塊的主流。
待解決的問題有一些分析。
當(dāng)前的融合模型面臨著錯對齊和信息丟失的問題。此外,平融合(flat fusion)操作也阻止了感知任務(wù)性能的進(jìn)一步提高??偨Y(jié)一下:
錯對齊和信息丟失:傳統(tǒng)的前融合和深度融合方法利用外部標(biāo)定矩陣將所有激光雷達(dá)點直接投影到相應(yīng)的像素,反之亦然。然而,由于傳感器噪聲,這種逐像素對齊不夠精確。因此,可以采取周圍的信息作為補(bǔ)充,會產(chǎn)生更好的性能。此外,在輸入和特征空間的轉(zhuǎn)換過程中,還存在其他一些信息損失。通常,降維操作的投影不可避免地會導(dǎo)致大量信息丟失,例如,將3-D激光雷達(dá)點云映射到2-DBEV圖像。將兩個模態(tài)數(shù)據(jù)映射到另一個專門為融合設(shè)計的高維表示,可以有效地利用原始數(shù)據(jù),減少信息損失。
更合理的融合操作:級聯(lián)和元素相乘這些簡單的操作可能無法融合分布差異較大的數(shù)據(jù),難以彌合兩個模態(tài)之間的語義鴻溝。一些工作試圖用更復(fù)雜的級聯(lián)結(jié)構(gòu)來融合數(shù)據(jù)并提高性能。
前視圖單幀圖像是自動駕駛感知任務(wù)的典型場景。然而,大多數(shù)框架利用有限的信息,沒有詳細(xì)設(shè)計輔助任務(wù)來進(jìn)一步理解駕駛場景??偨Y(jié)一下:
采用更多的潛在信息:現(xiàn)有方法缺乏對多維度和來源信息的有效利用。其中大多數(shù)都集中在前視圖的單幀多模態(tài)數(shù)據(jù)上。其他有意義的信息還有語義、空間和場景上下文信息。一些模型試圖用圖像語義分割任務(wù)結(jié)果作為附加特征,而其他模型可能利用神經(jīng)網(wǎng)絡(luò)主干中間層的特征。在自動駕駛場景中,許多明確語義信息的下游任務(wù)可能會極大地提高目標(biāo)檢測任務(wù)的性能。例如車道檢測、語義分割。因此,未來的研究可以通過各種下游任務(wù)(如檢測車道、交通燈和標(biāo)志)共同構(gòu)建一個完整的城市場景的認(rèn)知框架,幫助感知任務(wù)的表現(xiàn)。此外,當(dāng)前的感知任務(wù)主要依賴于忽略時間信息的單一框架。最近基于激光雷達(dá)的方法結(jié)合了一個幀序列來提高性能。時間序列信息包含序列化的監(jiān)控信號,與單幀方法相比,它可以提供更穩(wěn)健的結(jié)果。
表征學(xué)習(xí)的自監(jiān)督:相互監(jiān)督的信號自然地存在于從同一個真實世界場景但不同角度采樣的跨模態(tài)數(shù)據(jù)中。然而,由于缺乏對數(shù)據(jù)的深入理解,目前無法挖掘出各模態(tài)之間的協(xié)同關(guān)系。未來的研究可以集中在如何利用多模態(tài)數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí),包括預(yù)訓(xùn)練、微調(diào)或?qū)Ρ葘W(xué)習(xí)。通過實施這些最先進(jìn)的機(jī)制,融合模型將加深對數(shù)據(jù)的理解并取得更好的結(jié)果。
域偏差和數(shù)據(jù)分辨率與真實場景和傳感器高相關(guān)。這些缺陷阻礙了自動駕駛深度學(xué)習(xí)模型的大規(guī)模訓(xùn)練和實施。
域偏差:在自主駕駛感知場景中,由不同傳感器提取的原始數(shù)據(jù)伴隨著域相關(guān)特征。不同的攝像頭系統(tǒng)有其光學(xué)特性,而激光雷達(dá)可能因機(jī)械激光雷達(dá)和固態(tài)激光雷達(dá)而不同。更重要的是,數(shù)據(jù)本身可能是有域偏差的,例如天氣、季節(jié)或地理位置。因此,檢測模型無法順利適應(yīng)新的場景。由于泛化失敗,這些缺陷妨礙大規(guī)模數(shù)據(jù)集的收集和原始訓(xùn)練數(shù)據(jù)可重用性。
分辨率沖突:來自不同模式的傳感器通常具有不同的分辨率。例如,激光雷達(dá)的空域密度明顯低于圖像的空域密度。無論采用何種投影方法,由于無法找到對應(yīng)關(guān)系,一些信息被消除。這可能導(dǎo)致模型被一個特定模態(tài)的數(shù)據(jù)所主導(dǎo),無論是特征向量的分辨率不同還是原始信息的不平衡。
審核編輯 :李倩
-
傳感器
+關(guān)注
關(guān)注
2552文章
51325瀏覽量
755400 -
激光雷達(dá)
+關(guān)注
關(guān)注
968文章
4003瀏覽量
190175 -
自動駕駛
+關(guān)注
關(guān)注
784文章
13904瀏覽量
166740
原文標(biāo)題:一文讀懂自動駕駛多模態(tài)傳感器融合
文章出處:【微信號:Zidonjiashi,微信公眾號:Zidonjiashi】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論