0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

BEV感知中的Transformer算法介紹

3D視覺工坊 ? 來源:東新村轱天樂@知乎 ? 2023-09-04 10:22 ? 次閱讀

1、Camera only

主要思想:固定900個query個數(shù),隨機(jī)初始化query。每個query對應(yīng)一個3D reference point,然后反投影到圖片上sample對應(yīng)像素的特征。

缺點:需要預(yù)訓(xùn)練模型,且因為是隨機(jī)初始化,訓(xùn)練收斂較慢

1eeb8d3e-4aae-11ee-97a6-92fbcf53809c.jpg

BEV Former

https://arxiv.org/abs/2203.17270

主要思想:將BEV下的每個grid作為query,在高度上采樣N個點,投影到圖像中sample到對應(yīng)像素的特征,且利用了空間和時間的信息。并且最終得到的是BEV featrue,在此featrue上做Det和Seg。

Spatial Cross-Attention:將BEV下的每個grid作為query,在高度上采樣N個點,投影到圖像中獲取特征。

Temporal Self-Attention: 通過self-attention代替運動補償,align上一幀的feature到當(dāng)前幀的Q

1f0aafb6-4aae-11ee-97a6-92fbcf53809c.jpg

曠視,PETR

https://arxiv.org/pdf/2203.05625.pdf

1f43256c-4aae-11ee-97a6-92fbcf53809c.jpg

2、多模態(tài)

清華,F(xiàn)UTR3D

https://arxiv.org/pdf/2203.10642.pdf

在DETR的基礎(chǔ)上,將3D reference point投影到Lidar voxel特征和radar point 特征上。

1f7422ac-4aae-11ee-97a6-92fbcf53809c.jpg

香港科技大學(xué),Transfusion

https://arxiv.org/pdf/2203.11496.pdf

利用CenterPoint在heatmap上獲取Top K個點作為Query(這K個點可以看做是通過lidar網(wǎng)絡(luò)初始化了每個目標(biāo)的位置,這比DETR用隨機(jī)點作為Qurey收斂要快),先經(jīng)過Lidar Transformer得到proposal,把這個proposal作為Query,再和image feature做cross attention。

1f9b9a30-4aae-11ee-97a6-92fbcf53809c.jpg

Google,DeepFusion

https://arxiv.org/abs/2203.08195

直接將Lidar feature和Camera feature做cross attention,這個思路牛逼,我不看到這篇論文是絕對想不到還能這么搞的。

1fbef3f4-4aae-11ee-97a6-92fbcf53809c.jpg

編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4612

    瀏覽量

    92884
  • 感知
    +關(guān)注

    關(guān)注

    1

    文章

    66

    瀏覽量

    12134
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    143

    瀏覽量

    6005

原文標(biāo)題:BEV感知中的Transformer算法

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    基于LSS范式的BEV感知算法優(yōu)化部署詳解

    BEV即Bird's Eye View(鳥瞰視圖)是一種從空中俯視場景的視角。由多張不同視角采集的圖像通過不同的空間轉(zhuǎn)換方式形成,如下圖所示,左側(cè)為6張不同位置的相機(jī)采集的圖像,右側(cè)為轉(zhuǎn)換的BEV圖像。
    的頭像 發(fā)表于 01-02 14:13 ?4293次閱讀
    基于LSS范式的<b class='flag-5'>BEV</b><b class='flag-5'>感知</b><b class='flag-5'>算法</b>優(yōu)化部署詳解

    BEV感知算法:下一代自動駕駛的核心技術(shù)

    首先,BEV視圖存在遮擋小的優(yōu)點,由于視覺的透視效應(yīng),現(xiàn)實世界的物體在2D圖像很容易受到其他物體的遮擋,因此,傳統(tǒng)的基于2D的感知方式只能感知可見的目標(biāo),對于被遮擋的部分
    發(fā)表于 01-25 15:38 ?4177次閱讀
    <b class='flag-5'>BEV</b><b class='flag-5'>感知</b><b class='flag-5'>算法</b>:下一代自動駕駛的核心技術(shù)

    未來已來,多傳感器融合感知是自動駕駛破局的關(guān)鍵

    了目標(biāo)的3D空間位置信息、目標(biāo)的速度信息和材質(zhì)信息,可以直接高效實時支持占用網(wǎng)格的體素算法。Tesla目前在主推“BEV +Transformer+占用網(wǎng)絡(luò)”,國內(nèi)華為GOD2.0和
    發(fā)表于 04-11 10:26

    感知時間等比縮減的機(jī)會頻譜接入算法研究

    的機(jī)會頻譜接入算法(SGPR)。該算法與其他固定感知時間長度算法比較,相對縮減了頻譜感知時間,增加了系統(tǒng)傳輸時間,從而提高了認(rèn)知網(wǎng)絡(luò)系統(tǒng)的吞
    發(fā)表于 04-23 11:17

    BEV+Transformer對智能駕駛硬件系統(tǒng)有著什么樣的影響?

    BEV+Transformer是目前智能駕駛領(lǐng)域最火熱的話題,沒有之一,這也是無人駕駛低迷期唯一的亮點,BEV+Transformer徹底終結(jié)了2D直視圖+CNN時代
    的頭像 發(fā)表于 02-16 17:14 ?2555次閱讀

    黑芝麻智能在BEV感知方面的研發(fā)進(jìn)展

    日前,在由黑芝麻智能主辦的“2023智能汽車高峰論壇”上,黑芝麻智能深度學(xué)習(xí)研發(fā)高級總監(jiān)王祚官發(fā)表了主題為“BEV感知,給自動駕駛開啟‘上帝視角’”的主旨演講,分享黑芝麻智能在BEV感知
    的頭像 發(fā)表于 05-15 16:39 ?1544次閱讀

    基于幾何變換器的2D-to-BEV視圖轉(zhuǎn)換學(xué)習(xí)

    BEV感知是自動駕駛的重要趨勢。常規(guī)的自動駕駛算法方法基于在前視圖或透視圖中執(zhí)行檢測、分割、跟蹤,而在BEV可表示周圍場景,相對而言更加直
    發(fā)表于 06-06 17:47 ?1704次閱讀
    基于幾何變換器的2D-to-<b class='flag-5'>BEV</b>視圖轉(zhuǎn)換學(xué)習(xí)

    基于Transformer的目標(biāo)檢測算法

    掌握基于Transformer的目標(biāo)檢測算法的思路和創(chuàng)新點,一些Transformer論文涉及的新概念比較多,話術(shù)沒有那么通俗易懂,讀完論文仍然不理解算法的細(xì)節(jié)部分。
    發(fā)表于 08-16 10:51 ?653次閱讀
    基于<b class='flag-5'>Transformer</b>的目標(biāo)檢測<b class='flag-5'>算法</b>

    BEV人工智能transformer

    BEV人工智能transformer? 人工智能Transformer技術(shù)是一種自然語言處理領(lǐng)域的重要技術(shù),廣泛應(yīng)用于自然語言理解、機(jī)器翻譯、文本分類等任務(wù)。它通過深度學(xué)習(xí)
    的頭像 發(fā)表于 08-22 15:59 ?855次閱讀

    CVPR上的新頂流:BEV自動駕駛感知新范式

    BEV自動駕駛感知好比一個從高處統(tǒng)觀全局的“上帝視角”,將三維環(huán)境信息投影到二維平面,以俯視視角展示環(huán)境的物體和地形。在路徑規(guī)劃、障礙物檢測、自動駕駛決策等方面,BEV
    的頭像 發(fā)表于 08-23 14:51 ?1070次閱讀
    CVPR上的新頂流:<b class='flag-5'>BEV</b>自動駕駛<b class='flag-5'>感知</b>新范式

    利用Transformer BEV解決自動駕駛Corner Case的技術(shù)原理

    BEV是一種將三維環(huán)境信息投影到二維平面的方法,以俯視視角展示環(huán)境的物體和地形。在自動駕駛領(lǐng)域,BEV 可以幫助系統(tǒng)更好地理解周圍環(huán)境,提高感知和決策的準(zhǔn)確性。在環(huán)境
    的頭像 發(fā)表于 10-11 16:16 ?775次閱讀
    利用<b class='flag-5'>Transformer</b> <b class='flag-5'>BEV</b>解決自動駕駛Corner Case的技術(shù)原理

    智能駕駛感知算法梳理 高階自動駕駛落地關(guān)鍵分析

      感知算法升級是L2級向L 3級智能駕駛系統(tǒng)跨越的關(guān)鍵。與傳統(tǒng)2D+CNN算法相比,BEV+ Transformer
    發(fā)表于 10-19 09:53 ?406次閱讀
    智能駕駛<b class='flag-5'>感知</b><b class='flag-5'>算法</b>梳理 高階自動駕駛落地關(guān)鍵分析

    BEV感知的二維特征點

    BEV感知的二維特征點 首先來簡單介紹一下什么是BEV感知。 BEV
    的頭像 發(fā)表于 11-14 11:37 ?676次閱讀

    黑芝麻智能開發(fā)多重亮點的BEV算法技術(shù) 助力車企高階自動駕駛落地

    隨著視覺算法的演進(jìn),BEV(Bird's-Eye-View Perception)感知算法成為主機(jī)廠和自動駕駛公司發(fā)力城市場景的核心技術(shù)之一,
    的頭像 發(fā)表于 03-29 18:18 ?1920次閱讀
    黑芝麻智能開發(fā)多重亮點的<b class='flag-5'>BEV</b><b class='flag-5'>算法</b>技術(shù) 助力車企高階自動駕駛落地

    自動駕駛中一直說的BEV+Transformer到底是個啥?

    在很多車企的自動駕駛介紹,都會聽到一個關(guān)鍵技術(shù),那就是BEV+Transformer,那BEV+Transformer到底是個啥?為什么很多車企在自動駕駛技術(shù)中都十分追捧這項技術(shù)?其
    的頭像 發(fā)表于 11-07 11:19 ?387次閱讀
    自動駕駛中一直說的<b class='flag-5'>BEV+Transformer</b>到底是個啥?