0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于純視覺的感知方法

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2023-06-15 14:20 ? 次閱讀

背景 近年來,基于純視覺的感知方法由于其較高的信噪比和較低的成本,在自動(dòng)駕駛領(lǐng)域占有重要地位。其中,鳥瞰圖(BEV)感知已成為主流的方法。在以視覺為中心的自動(dòng)駕駛?cè)蝿?wù)中,BEV表示學(xué)習(xí)是指將周圍多個(gè)攝像頭的連續(xù)幀作為輸入,然后將像平面視角轉(zhuǎn)換為鳥瞰圖視角,在得到的鳥瞰圖特征上執(zhí)行諸如三維目標(biāo)檢測(cè)、地圖視圖語義分割和運(yùn)動(dòng)預(yù)測(cè)等感知任務(wù)。 BEV感知性能的提高取決于如何快速且精準(zhǔn)地獲取道路和物體特征表示。圖1中展示了現(xiàn)有的兩類基于不同交互機(jī)制的BEV感知管道:(a)后交互和(b)中間交互。后交互管道[1]在每個(gè)相機(jī)視角上獨(dú)立地進(jìn)行感知,然后將感知結(jié)果在時(shí)間和空間上融合到一個(gè)統(tǒng)一的BEV特征空間中。中間交互管道[2,3,4]是最近使用得最廣泛的方案,它將所有的相機(jī)視角圖像耦合輸入到網(wǎng)絡(luò)中,通過網(wǎng)絡(luò)將它們轉(zhuǎn)換到BEV空間,然后直接輸出結(jié)果。中間交互管道中的特征提取、空間轉(zhuǎn)換和BEV空間的學(xué)習(xí)都有一個(gè)明確的順序。

bb012d7e-0b42-11ee-962d-dac502259ad0.png

圖1:后交互、中間交互和我們提出的前置交互框架示意圖 基于視覺的BEV感知的核心挑戰(zhàn)是從仿射視角(Perspective View, PV)向鳥瞰圖視角(BEV)的轉(zhuǎn)換。然而,利用現(xiàn)有的兩種交互策略將PV轉(zhuǎn)換到BEV仍然存在許多問題:(1) 圖像空間backbone只依次提取不同分辨率的圖像特征,而沒有融合任何跨分辨率的信息;(2) 現(xiàn)有的交互策略中核心模塊的計(jì)算量主要由圖像空間backbone占據(jù),但它不包含任何BEV空間信息,導(dǎo)致大量的計(jì)算并沒有執(zhí)行PV到BEV轉(zhuǎn)換這一關(guān)鍵任務(wù);(3) 后交互策略和中間交互策略的前向處理中的信息流是單向的,信息從圖像空間流到BEV空間,而BEV空間中的信息并沒有有效地影響圖像空間中的特征。為了解決這些問題,我們提出了一種新的基于Transformer的雙向前置交互框架,以有效地將多尺度圖像特征聚合成更好的BEV特征表示,并執(zhí)行BEV語義分割任務(wù)。 與現(xiàn)有的兩種策略相比,我們提出的前置交互方法具有明顯的優(yōu)勢(shì)。首先,我們提出的雙向前置交互方法可以融合全局上下文信息和局部細(xì)節(jié),從而能夠向BEV空間傳遞更豐富的語義信息。其次,我們提出PV到BEV的轉(zhuǎn)換不僅可以是圖像特征提取后,而且可以在提取過程中進(jìn)行逐步轉(zhuǎn)換,于是,通過我們提出的雙向交叉注意力機(jī)制,信息流可以隱式地進(jìn)行雙向交互,從而對(duì)齊PV和BEV中的特征。此外,我們的方法可以將跨空間對(duì)齊學(xué)習(xí)擴(kuò)散到整個(gè)框架中,即圖像網(wǎng)絡(luò)學(xué)習(xí)不僅可以學(xué)習(xí)到良好的特征表示,而且可以起到跨空間對(duì)齊的作用。 方法

整體框架

BAEFormer的整體框架如圖2所示,總共包含兩個(gè)部分:(1)雙向前置交互編碼器,用于提取圖像特征并將其從PV轉(zhuǎn)換為BEV;(2)將低分辨率BEV特征上采樣到高分辨率BEV特征的解碼器,用于執(zhí)行下游任務(wù)。

bb41a520-0b42-11ee-962d-dac502259ad0.png

圖2:BAEFormer整體框架圖

前置交互

對(duì)于前置交互模塊,我們使用EfficientNet[5]的預(yù)訓(xùn)練模型來提取環(huán)視圖像的特征,特征提取器包含三層,分別提取圖像的4x,8x,16x分辨率的特征。4x分辨率的特征首先被提取出來,通過一個(gè)降采樣模塊之后和BEV特征進(jìn)行交互得到更新之后的4x分辨率特征,將更新之后的4x特征上采樣,并作為特征提取器的下一層的輸入來提取8x分辨率特征。以此類推,我們得到更新之后的8x特征并作為特征提取器最后一層的輸入,由此得到16x圖像特征。我們的多尺度前置交互方法可以充分利用分層預(yù)訓(xùn)練的模型來整合多尺度圖像特征。同時(shí),BEV的空間信息可以流入主干網(wǎng)絡(luò),使前置交互主干網(wǎng)絡(luò)承擔(dān)了部分異質(zhì)空間對(duì)齊的功能。

雙向交叉注意力

如圖3中所示,我們提出的雙向交叉注意力模型包含兩個(gè)分支,一個(gè)用于多視圖圖像特征的精細(xì)化,另一個(gè)用于BEV特征的精細(xì)化。 首先,N個(gè)環(huán)視圖像特征首先被編碼為查詢特征,鍵特征和值特征,其中c表示特征維度,h和w分別表示特征的高和寬。相似的,BEV特征編碼也被轉(zhuǎn)換為查詢特征,鍵特征和值特征。于是圖像特征和BEV特征的交叉注意力可以表示為: 整個(gè)Transformer模塊就可以使用下式計(jì)算: 其中,和表示第l層的輸入,和表示第l層的輸出。LN(?)表示層歸一化操作,MLP(?)表示有2個(gè)全連接層和一個(gè)非線性層的多層感知機(jī)模塊,MHBiCA(?)表示擁有多頭交叉注意力機(jī)制的BiCA(?)模塊。

bb745b5a-0b42-11ee-962d-dac502259ad0.png

圖3:雙向交叉注意力框架圖 實(shí)驗(yàn)結(jié)果 表1展示了BAEFormer方法和之前的方法在兩種設(shè)置下的性能、參數(shù)和推理速度的對(duì)比結(jié)果??梢钥闯?,BAEFormer在使用相同輸入分辨率(224x480)的設(shè)置下,在精度上超過了現(xiàn)有的實(shí)時(shí)方法。同時(shí),雖然先前的BEVFormer[2]實(shí)現(xiàn)了高性能,但它非常耗時(shí),模型參數(shù)高達(dá)68.1M。我們的BAEFormer在大輸入圖像分辨率(504x1056)下的運(yùn)行速度比BEVFormer快12倍,而參數(shù)量大約是它的1/12。

bb8b8cc6-0b42-11ee-962d-dac502259ad0.png

表1:nuScenes數(shù)據(jù)集上車輛類別的語義分割結(jié)果

消融實(shí)驗(yàn)

表2展示了我們?cè)趎uScenes數(shù)據(jù)集上對(duì)車輛類別進(jìn)行的不同交互方式的消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,我們的BAEFormer方法可以將雙向交叉注意力機(jī)制和前置交互方式充分地結(jié)合以得到更好的BEV特征表示。

bba9ec34-0b42-11ee-962d-dac502259ad0.png

表2:不同交互方式的消融實(shí)驗(yàn) 表3展示了具有不同輸入分辨率和圖像特征尺度的模型的mIoU性能和內(nèi)存使用情況。結(jié)果說明,使用多尺度特征可以帶來更好的性能;增大輸入圖像分辨率可以提高性能,但會(huì)帶來顯存的劇增;我們發(fā)現(xiàn),如(j)-(n)所示,在交互過程中,輸入圖像的分辨率對(duì)最終的精度沒有太大的影響;因此我們可以在提高輸入圖像分辨率來提升性能的同時(shí),通過對(duì)交互時(shí)的圖像特征進(jìn)行降采樣來保證計(jì)算量是可控的。

bbb94b34-0b42-11ee-962d-dac502259ad0.png

表3: 不同輸入分辨率和不同圖像特征尺度的組合

可視化結(jié)果

圖4展示了BEV下的可視化結(jié)果,可以看出BAEFormer對(duì)比baseline模型,不僅對(duì)于近處物體漏檢(紅色圈)的數(shù)目有效減少,且對(duì)于遠(yuǎn)處物體(綠色圈)也能進(jìn)行有效的感知,進(jìn)一步說明了我們方法的感知能力具有一定的優(yōu)勢(shì)。

bbd7ff20-0b42-11ee-962d-dac502259ad0.png

圖4:不同模型的可視化結(jié)果對(duì)比 結(jié)論 在本文中,我們提出了一種稱為BAEFormer的BEV語義分割新框架,采用雙向交叉注意力機(jī)制,通過對(duì)圖像特征空間和 BEV 特征空間中的信息流施加雙向約束來建立改進(jìn)的跨空間對(duì)齊,同時(shí)利用前置交互方法來合并跨尺度信息,并實(shí)現(xiàn)更精細(xì)的語義表示。實(shí)驗(yàn)結(jié)果表明,BAEFormer在保持實(shí)時(shí)推理速度的同時(shí)能夠提高BEV語義分割的性能。 點(diǎn)擊“閱讀原文”,下載論文獲取更多信息。
責(zé)任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 相機(jī)
    +關(guān)注

    關(guān)注

    4

    文章

    1351

    瀏覽量

    53601
  • 視覺
    +關(guān)注

    關(guān)注

    1

    文章

    147

    瀏覽量

    23945
  • 感知
    +關(guān)注

    關(guān)注

    1

    文章

    66

    瀏覽量

    12134

原文標(biāo)題:CVPR 2023|BAEFormer:基于雙向前置交互Transformer的BEV語義分割方法

文章出處:【微信號(hào):horizonrobotics,微信公眾號(hào):地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    有誰是做認(rèn)知無線電頻譜感知方向的嗎

    本人研二,研究方向?yàn)檎J(rèn)知無線電頻譜感知方法的研究,主要是處理數(shù)字端,有哪位童鞋跟我是同方向,一起探討探討啊
    發(fā)表于 09-11 22:13

    人類視覺感知方式對(duì)VR的挑戰(zhàn)

    美國(guó)VR開發(fā)商Oculus VR首席科學(xué)家邁克爾·阿布拉西(Michael Abrash)近日撰文,闡述了人類視覺感知給虛擬現(xiàn)實(shí)(VR)發(fā)展帶來的重大影響。作為人類,我們看到的影像其實(shí)都是視覺騙局
    發(fā)表于 07-29 07:35

    智能感知方案怎么幫助實(shí)現(xiàn)安全的自動(dòng)駕駛?

    未來,自動(dòng)駕駛將不再是科幻電影里的橋段,這是未來汽車的一個(gè)趨勢(shì),感知是自動(dòng)駕駛的重要組成部分,同時(shí)安全性至關(guān)重要。作為全球第7大汽車半導(dǎo)體供應(yīng)商,安森美半導(dǎo)體提供全面的智能感知方案,包括圖像傳感器
    發(fā)表于 07-31 07:11

    認(rèn)知無線電中基于循環(huán)平穩(wěn)特征的頻譜感知方法

    認(rèn)知無線電中基于循環(huán)平穩(wěn)特征的頻譜感知方法.
    發(fā)表于 03-16 15:55 ?35次下載
    認(rèn)知無線電中基于循環(huán)平穩(wěn)特征的頻譜<b class='flag-5'>感知方法</b>

    智能機(jī)器人多傳感器融合感知方法

    智能機(jī)器人多傳感器融合感知方法,感興趣的小伙伴們可以瞧一瞧。
    發(fā)表于 09-20 16:10 ?19次下載

    一種基于智能終端的環(huán)境與接近度感知方法

    提出一種基于智能終端的環(huán)境與接近度感知方法。首先,基于智能終端多種內(nèi)置傳感器采集的環(huán)境數(shù)據(jù),提出一種環(huán)境感知算法,可以有效地識(shí)別不同場(chǎng)景切換;其次,以log-normal衰落模型得到的藍(lán)牙信號(hào)
    發(fā)表于 11-16 11:17 ?7次下載
    一種基于智能終端的環(huán)境與接近度<b class='flag-5'>感知方法</b>

    基于信道歷史狀態(tài)信息的頻譜感知方法

    針對(duì)衛(wèi)星認(rèn)知網(wǎng)絡(luò)環(huán)境中待檢測(cè)信號(hào)強(qiáng)度不斷變化的特點(diǎn),為了突破傳統(tǒng)能量檢測(cè)的性能極限,提出一種基于信道歷史狀態(tài)信息的頻譜感知方法。首先,通過建立具有遺忘機(jī)制的信道歷史狀態(tài)判決模型實(shí)現(xiàn)對(duì)當(dāng)前時(shí)刻信道狀態(tài)
    發(fā)表于 01-15 15:33 ?0次下載
    基于信道歷史狀態(tài)信息的頻譜<b class='flag-5'>感知方法</b>

    激光雷達(dá)vs計(jì)算機(jī)視覺 自動(dòng)駕駛的兩大流派

    激光雷達(dá)流派和計(jì)算機(jī)視覺流派一直在自動(dòng)駕駛技術(shù)中的感知層解決方案上喋喋不休。激光雷達(dá)派認(rèn)為視覺算法在數(shù)據(jù)形式和精度上的不足;
    的頭像 發(fā)表于 05-22 11:25 ?1w次閱讀

    新的工業(yè)應(yīng)用智能感知方

    推動(dòng)高能效創(chuàng)新的安森美半導(dǎo)體(ON Semiconductor,美國(guó)納斯達(dá)克上市代號(hào):ON),將于 7 月 3 日至 5 日在 2020 中國(guó)(上海)機(jī)器視覺展展示廣泛的智能圖像感知方案。
    發(fā)表于 07-03 11:40 ?975次閱讀

    黑芝麻智能在BEV感知方面的研發(fā)進(jìn)展

    日前,在由黑芝麻智能主辦的“2023智能汽車高峰論壇”上,黑芝麻智能深度學(xué)習(xí)研發(fā)高級(jí)總監(jiān)王祚官發(fā)表了主題為“BEV感知,給自動(dòng)駕駛開啟‘上帝視角’”的主旨演講,分享黑芝麻智能在BEV感知方面的研發(fā)進(jìn)展。
    的頭像 發(fā)表于 05-15 16:39 ?1544次閱讀

    基于雙向前置交互Transformer的BEV語義分割方法

    近年來,基于視覺感知方法由于其較高的信噪比和較低的成本,在自動(dòng)駕駛領(lǐng)域占有重要地位。
    發(fā)表于 06-15 14:15 ?546次閱讀
    基于雙向前置交互Transformer的BEV語義分割<b class='flag-5'>方法</b>

    4分鐘了解吸頂燈具智能感知方案測(cè)試方法

    視頻版吸頂燈智能感知方案測(cè)試方法從照明燈具、家電家居、安防系統(tǒng)、健康看護(hù)系統(tǒng)到商業(yè)設(shè)備,我們身邊的智能設(shè)備變得越來越聰明。在這場(chǎng)智能化革命中,富奧星雷達(dá)傳感器賦予了這些設(shè)備感知、檢測(cè)和互動(dòng)能力,成功
    的頭像 發(fā)表于 12-01 10:20 ?1160次閱讀
    4分鐘了解吸頂燈具智能<b class='flag-5'>感知方</b>案測(cè)試<b class='flag-5'>方法</b>

    ?人工智能技術(shù)解密——機(jī)器視覺技術(shù)及應(yīng)用

    視覺是人類最敏感、最直接的感知方式,在不進(jìn)行實(shí)際接觸的情況下,視覺感知可以使得我們獲取周圍環(huán)境的諸多信息
    的頭像 發(fā)表于 07-07 14:15 ?838次閱讀
    ?人工智能技術(shù)解密——機(jī)器<b class='flag-5'>視覺</b>技術(shù)及應(yīng)用

    自動(dòng)駕駛中激光雷達(dá)和視覺感知的區(qū)別

    視覺自動(dòng)駕駛方案從產(chǎn)品分析,目前特斯拉的產(chǎn)品還處于L2的階段,從今年第一季度的財(cái)報(bào)上看視覺自動(dòng)駕駛方案是這樣解釋:目前道路交通系統(tǒng)是基于人類視覺
    發(fā)表于 08-08 12:49 ?1480次閱讀
    自動(dòng)駕駛中激光雷達(dá)和<b class='flag-5'>視覺</b><b class='flag-5'>感知</b>的區(qū)別

    激光雷達(dá)與視覺方案,哪個(gè)才是自動(dòng)駕駛最優(yōu)選?

    主要分為兩大類:激光雷達(dá)與視覺感知。激光雷達(dá)因其能夠提供精確的距離和形狀信息,在自動(dòng)駕駛技術(shù)早期的開發(fā)中被廣泛應(yīng)用。然而,隨著計(jì)算機(jī)視覺技術(shù)的飛速進(jìn)步,基于攝像頭的
    的頭像 發(fā)表于 09-29 10:47 ?454次閱讀