背景 近年來,基于純視覺的感知方法由于其較高的信噪比和較低的成本,在自動(dòng)駕駛領(lǐng)域占有重要地位。其中,鳥瞰圖(BEV)感知已成為主流的方法。在以視覺為中心的自動(dòng)駕駛?cè)蝿?wù)中,BEV表示學(xué)習(xí)是指將周圍多個(gè)攝像頭的連續(xù)幀作為輸入,然后將像平面視角轉(zhuǎn)換為鳥瞰圖視角,在得到的鳥瞰圖特征上執(zhí)行諸如三維目標(biāo)檢測(cè)、地圖視圖語義分割和運(yùn)動(dòng)預(yù)測(cè)等感知任務(wù)。 BEV感知性能的提高取決于如何快速且精準(zhǔn)地獲取道路和物體特征表示。圖1中展示了現(xiàn)有的兩類基于不同交互機(jī)制的BEV感知管道:(a)后交互和(b)中間交互。后交互管道[1]在每個(gè)相機(jī)視角上獨(dú)立地進(jìn)行感知,然后將感知結(jié)果在時(shí)間和空間上融合到一個(gè)統(tǒng)一的BEV特征空間中。中間交互管道[2,3,4]是最近使用得最廣泛的方案,它將所有的相機(jī)視角圖像耦合輸入到網(wǎng)絡(luò)中,通過網(wǎng)絡(luò)將它們轉(zhuǎn)換到BEV空間,然后直接輸出結(jié)果。中間交互管道中的特征提取、空間轉(zhuǎn)換和BEV空間的學(xué)習(xí)都有一個(gè)明確的順序。
圖1:后交互、中間交互和我們提出的前置交互框架示意圖 基于視覺的BEV感知的核心挑戰(zhàn)是從仿射視角(Perspective View, PV)向鳥瞰圖視角(BEV)的轉(zhuǎn)換。然而,利用現(xiàn)有的兩種交互策略將PV轉(zhuǎn)換到BEV仍然存在許多問題:(1) 圖像空間backbone只依次提取不同分辨率的圖像特征,而沒有融合任何跨分辨率的信息;(2) 現(xiàn)有的交互策略中核心模塊的計(jì)算量主要由圖像空間backbone占據(jù),但它不包含任何BEV空間信息,導(dǎo)致大量的計(jì)算并沒有執(zhí)行PV到BEV轉(zhuǎn)換這一關(guān)鍵任務(wù);(3) 后交互策略和中間交互策略的前向處理中的信息流是單向的,信息從圖像空間流到BEV空間,而BEV空間中的信息并沒有有效地影響圖像空間中的特征。為了解決這些問題,我們提出了一種新的基于Transformer的雙向前置交互框架,以有效地將多尺度圖像特征聚合成更好的BEV特征表示,并執(zhí)行BEV語義分割任務(wù)。 與現(xiàn)有的兩種策略相比,我們提出的前置交互方法具有明顯的優(yōu)勢(shì)。首先,我們提出的雙向前置交互方法可以融合全局上下文信息和局部細(xì)節(jié),從而能夠向BEV空間傳遞更豐富的語義信息。其次,我們提出PV到BEV的轉(zhuǎn)換不僅可以是圖像特征提取后,而且可以在提取過程中進(jìn)行逐步轉(zhuǎn)換,于是,通過我們提出的雙向交叉注意力機(jī)制,信息流可以隱式地進(jìn)行雙向交互,從而對(duì)齊PV和BEV中的特征。此外,我們的方法可以將跨空間對(duì)齊學(xué)習(xí)擴(kuò)散到整個(gè)框架中,即圖像網(wǎng)絡(luò)學(xué)習(xí)不僅可以學(xué)習(xí)到良好的特征表示,而且可以起到跨空間對(duì)齊的作用。 方法
整體框架
BAEFormer的整體框架如圖2所示,總共包含兩個(gè)部分:(1)雙向前置交互編碼器,用于提取圖像特征并將其從PV轉(zhuǎn)換為BEV;(2)將低分辨率BEV特征上采樣到高分辨率BEV特征的解碼器,用于執(zhí)行下游任務(wù)。
圖2:BAEFormer整體框架圖
前置交互
對(duì)于前置交互模塊,我們使用EfficientNet[5]的預(yù)訓(xùn)練模型來提取環(huán)視圖像的特征,特征提取器包含三層,分別提取圖像的4x,8x,16x分辨率的特征。4x分辨率的特征首先被提取出來,通過一個(gè)降采樣模塊之后和BEV特征進(jìn)行交互得到更新之后的4x分辨率特征,將更新之后的4x特征上采樣,并作為特征提取器的下一層的輸入來提取8x分辨率特征。以此類推,我們得到更新之后的8x特征并作為特征提取器最后一層的輸入,由此得到16x圖像特征。我們的多尺度前置交互方法可以充分利用分層預(yù)訓(xùn)練的模型來整合多尺度圖像特征。同時(shí),BEV的空間信息可以流入主干網(wǎng)絡(luò),使前置交互主干網(wǎng)絡(luò)承擔(dān)了部分異質(zhì)空間對(duì)齊的功能。
雙向交叉注意力
如圖3中所示,我們提出的雙向交叉注意力模型包含兩個(gè)分支,一個(gè)用于多視圖圖像特征的精細(xì)化,另一個(gè)用于BEV特征的精細(xì)化。 首先,N個(gè)環(huán)視圖像特征首先被編碼為查詢特征,鍵特征和值特征,其中c表示特征維度,h和w分別表示特征的高和寬。相似的,BEV特征編碼也被轉(zhuǎn)換為查詢特征,鍵特征和值特征。于是圖像特征和BEV特征的交叉注意力可以表示為: 整個(gè)Transformer模塊就可以使用下式計(jì)算: 其中,和表示第l層的輸入,和表示第l層的輸出。LN(?)表示層歸一化操作,MLP(?)表示有2個(gè)全連接層和一個(gè)非線性層的多層感知機(jī)模塊,MHBiCA(?)表示擁有多頭交叉注意力機(jī)制的BiCA(?)模塊。
圖3:雙向交叉注意力框架圖 實(shí)驗(yàn)結(jié)果 表1展示了BAEFormer方法和之前的方法在兩種設(shè)置下的性能、參數(shù)和推理速度的對(duì)比結(jié)果??梢钥闯?,BAEFormer在使用相同輸入分辨率(224x480)的設(shè)置下,在精度上超過了現(xiàn)有的實(shí)時(shí)方法。同時(shí),雖然先前的BEVFormer[2]實(shí)現(xiàn)了高性能,但它非常耗時(shí),模型參數(shù)高達(dá)68.1M。我們的BAEFormer在大輸入圖像分辨率(504x1056)下的運(yùn)行速度比BEVFormer快12倍,而參數(shù)量大約是它的1/12。
表1:nuScenes數(shù)據(jù)集上車輛類別的語義分割結(jié)果
消融實(shí)驗(yàn)
表2展示了我們?cè)趎uScenes數(shù)據(jù)集上對(duì)車輛類別進(jìn)行的不同交互方式的消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,我們的BAEFormer方法可以將雙向交叉注意力機(jī)制和前置交互方式充分地結(jié)合以得到更好的BEV特征表示。
表2:不同交互方式的消融實(shí)驗(yàn) 表3展示了具有不同輸入分辨率和圖像特征尺度的模型的mIoU性能和內(nèi)存使用情況。結(jié)果說明,使用多尺度特征可以帶來更好的性能;增大輸入圖像分辨率可以提高性能,但會(huì)帶來顯存的劇增;我們發(fā)現(xiàn),如(j)-(n)所示,在交互過程中,輸入圖像的分辨率對(duì)最終的精度沒有太大的影響;因此我們可以在提高輸入圖像分辨率來提升性能的同時(shí),通過對(duì)交互時(shí)的圖像特征進(jìn)行降采樣來保證計(jì)算量是可控的。
表3: 不同輸入分辨率和不同圖像特征尺度的組合
可視化結(jié)果
圖4展示了BEV下的可視化結(jié)果,可以看出BAEFormer對(duì)比baseline模型,不僅對(duì)于近處物體漏檢(紅色圈)的數(shù)目有效減少,且對(duì)于遠(yuǎn)處物體(綠色圈)也能進(jìn)行有效的感知,進(jìn)一步說明了我們方法的感知能力具有一定的優(yōu)勢(shì)。
圖4:不同模型的可視化結(jié)果對(duì)比 結(jié)論 在本文中,我們提出了一種稱為BAEFormer的BEV語義分割新框架,采用雙向交叉注意力機(jī)制,通過對(duì)圖像特征空間和 BEV 特征空間中的信息流施加雙向約束來建立改進(jìn)的跨空間對(duì)齊,同時(shí)利用前置交互方法來合并跨尺度信息,并實(shí)現(xiàn)更精細(xì)的語義表示。實(shí)驗(yàn)結(jié)果表明,BAEFormer在保持實(shí)時(shí)推理速度的同時(shí)能夠提高BEV語義分割的性能。 點(diǎn)擊“閱讀原文”,下載論文獲取更多信息。
責(zé)任編輯:彭菁
-
相機(jī)
+關(guān)注
關(guān)注
4文章
1351瀏覽量
53601 -
視覺
+關(guān)注
關(guān)注
1文章
147瀏覽量
23945 -
感知
+關(guān)注
關(guān)注
1文章
66瀏覽量
12134
原文標(biāo)題:CVPR 2023|BAEFormer:基于雙向前置交互Transformer的BEV語義分割方法
文章出處:【微信號(hào):horizonrobotics,微信公眾號(hào):地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論