1、Camera only
主要思想:固定900個query個數(shù),隨機(jī)初始化query。每個query對應(yīng)一個3D reference point,然后反投影到圖片上sample對應(yīng)像素的特征。
缺點:需要預(yù)訓(xùn)練模型,且因為是隨機(jī)初始化,訓(xùn)練收斂較慢
BEV Former
https://arxiv.org/abs/2203.17270
主要思想:將BEV下的每個grid作為query,在高度上采樣N個點,投影到圖像中sample到對應(yīng)像素的特征,且利用了空間和時間的信息。并且最終得到的是BEV featrue,在此featrue上做Det和Seg。
Spatial Cross-Attention:將BEV下的每個grid作為query,在高度上采樣N個點,投影到圖像中獲取特征。
Temporal Self-Attention: 通過self-attention代替運動補償,align上一幀的feature到當(dāng)前幀的Q
曠視,PETR
https://arxiv.org/pdf/2203.05625.pdf
2、多模態(tài)
清華,F(xiàn)UTR3D
https://arxiv.org/pdf/2203.10642.pdf
在DETR的基礎(chǔ)上,將3D reference point投影到Lidar voxel特征和radar point 特征上。
香港科技大學(xué),Transfusion
https://arxiv.org/pdf/2203.11496.pdf
利用CenterPoint在heatmap上獲取Top K個點作為Query(這K個點可以看做是通過lidar網(wǎng)絡(luò)初始化了每個目標(biāo)的位置,這比DETR用隨機(jī)點作為Qurey收斂要快),先經(jīng)過Lidar Transformer得到proposal,把這個proposal作為Query,再和image feature做cross attention。
Google,DeepFusion
https://arxiv.org/abs/2203.08195
直接將Lidar feature和Camera feature做cross attention,這個思路牛逼,我不看到這篇論文是絕對想不到還能這么搞的。
編輯:黃飛
-
算法
+關(guān)注
關(guān)注
23文章
4612瀏覽量
92884 -
感知
+關(guān)注
關(guān)注
1文章
66瀏覽量
12134 -
Transformer
+關(guān)注
關(guān)注
0文章
143瀏覽量
6005
原文標(biāo)題:BEV感知中的Transformer算法
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論