999zyz玖玖资源站永久,日本高清二区,极品美女被操到高潮

在自動駕駛視覺感知系統(tǒng)中，為了獲得環(huán)繞車輛范圍的感知結(jié)果，通常需要融合多攝像頭的感知結(jié)果。比較早期的感知架構(gòu)中，通常采用后融合的范式，即先獲得每個攝像頭的感知結(jié)果，再進行結(jié)果層面的融合。后融合范式主要的問題在于難以處理跨攝像頭的目標（如大卡車），同時后處理的負擔也比較大。而目前更加主流的感知架構(gòu)則是選擇在特征層面進行多攝像頭融合。其中比較有代表性的路線就是這兩年很火的BEV方法，繼Tesla Open AI Day公布其BEV感知算法之后，相關(guān)研究層出不窮，感知效果取得了顯著提升，BEV也幾乎成為了多傳感器特征融合的代名詞。但是，隨著大家對BEV研究和部署的深入，BEV范式也逐漸暴露出來了一些缺陷：

?感知范圍、感知精度、計算效率難平衡：從圖像空間到BEV空間的轉(zhuǎn)換，是稠密特征到稠密特征的重新排列組合，計算量比較大，與圖像尺寸以及BEV 特征圖尺寸成正相關(guān)。在大家常用的nuScenes 數(shù)據(jù)中，感知范圍通常是長寬 [-50m, +50m] 的方形區(qū)域，然而在實際場景中，我們通常需要達到單向100m，甚至200m的感知距離。若要保持BEV Grid 的分辨率不變，則需要大大增加BEV 特征圖的尺寸，從而使得端上計算負擔和帶寬負擔都過重；若保持BEV特征圖的尺寸不變，則需要使用更粗的BEV Grid，感知精度就會下降。因此，在車端有限的算力條件下，BEV 方案通常難以實現(xiàn)遠距離感知和高分辨率特征的平衡；

?無法直接完成圖像域的2D感知任務(wù)：BEV 空間可以看作是壓縮了高度信息的3D空間，這使得BEV范式的方法難以直接完成2D相關(guān)的任務(wù)，如標志牌和紅綠燈檢測等，感知系統(tǒng)中仍然要保留圖像域的感知模型。

實際上，我們感興趣的目標（如動態(tài)目標和車道線）在空間中的分布通常很稀疏，BEV范式中有大量的計算都被浪費了。因此，基于BEV的稠密融合算法或許并不是最優(yōu)的多攝融合感知框架。同時特征級的多攝融合也并不等價于BEV。這兩年，PETR系列(PETR, PETR-v2, StreamPETR) 也取得了卓越的性能，并且其輸出空間是稀疏的。在PETR系列方法中，對于每個instance feature，采用global cross attention來實現(xiàn)多視角的特征融合。由于融合模塊計算復(fù)雜度仍與特征圖尺寸相關(guān)，因此其仍然屬于稠密算法的范疇，對高分辨率的圖像特征輸入不夠友好。

因此，我們希望實現(xiàn)一個高性能高效率的長時序純稀疏融合感知算法，一方面能加速2D->3D 的轉(zhuǎn)換效率，另外一方面在圖像空間直接捕獲目標跨攝像頭的關(guān)聯(lián)關(guān)系更加容易，因為在2D->BEV的環(huán)節(jié)不可避免存在大量信息丟失。這條技術(shù)路線代表性的方法是基于deformable attention 的DETR3D算法。然而從開源數(shù)據(jù)集指標來看，DETR3D的性能距離其他稠密類型的算法存在較大差距。為了Make 純稀疏感知 Great Again，我們提出了Sparse4D及其進化版本Sparse4D v2，從Query構(gòu)建方式、特征采樣方式、特征融合方式、時序融合方式等多個方面提升了模型的效果。當前，Sparse4D v2 在nuScenes detection 3D排行榜來看，達到了SOTA的效果，超越了包括SOLOFusion、BEVFormer v2和StreamPETR在內(nèi)的一眾最新方法，并且在推理效率上也具備顯著優(yōu)勢。本文主要介紹了Sparse4D 和 Sparse4D v2 方案的細節(jié)實踐。

Sparse4D：純稀疏感知方案的全面改進

圖1DETR3D 算法框架圖

首先，我們先簡單回顧一下DETR3D算法（圖1）。DETR3D 算法可以概括為如下幾個步驟：

1. 多尺度特征提?。?/strong>對于多攝像頭圖像，采用ResNet + FPN 提取圖像的多尺度特征

2. Query 初始化：初始化若干Object Queries（以特征編碼的形式）

3.Query 特征更新：基于Query 特征，采用一個MLP Decoder 獲得其對應(yīng)的3D 空間參考點坐標，將這個點通過相機內(nèi)外參投影到圖像平面上，并采樣多尺度特征，最后融合這些采樣特征來更新Query 特征

4. 預(yù)測與loss：基于多輪更新后的Query 特征，預(yù)測每個Query 對應(yīng)的bounding box，并通過Bipartite 匹配的方式與真值進行匹配并計算損失函數(shù)

DETR3D 搭建了純稀疏感知的基本框架，即稀疏Query + 稀疏特征采樣的范式，但存在一些不足：

? 每個Query 僅對應(yīng)一個Reference Point，不能夠有效采樣目標的特征，特別對于較大的目標

?從Learnable Query 來decode 獲得Reference Point 的方式，并不能非常有效的定位roi 區(qū)域，且會存在退化解，多模式等諸多的問題。這個問題在Anchor-DETR和 DAB-DETR等方法中都有過討論

?不支持對于時序信息的融合

由于上述的這些原因，DETR3D 網(wǎng)絡(luò)整體的學(xué)習能力偏弱，指標在當前顯著弱于BEV 范式的方法。在Sparse4D-v1 中，我們主要通過instance 構(gòu)建方式，特征采樣、特征融合和時序融合等方面改進了現(xiàn)有的框架。

Sparse4D 算法框架

圖2 Sparse4D算法框架

如圖2所示，Sparse4D 也采用了Encoder-Decoder 結(jié)構(gòu)。其中Encoder包括image backbone和neck，用于對多視角圖像進行特征提取，得到多視角多尺度特征圖。同時，我們會cache 多歷史幀的圖像特征，用于在decoder 中提取時序特征；Decoder為多層級聯(lián)形式，輸入時序多尺度圖像特征圖和初始化instance，輸出精細化后的instance，每層decoder包含self-attention、deformable aggregation和refine module三個主要部分。

學(xué)習2D檢測領(lǐng)域DETR改進的經(jīng)驗，我們也重新引入了Anchor的使用，并將待感知的目標定義為instance，每個instance主要由兩個部分構(gòu)成：

1. Instance feature：目標的高維特征，在decoder 中不斷由來自于圖像特征的采樣特征所更新；

2. 3D Anchor：目標結(jié)構(gòu)化的狀態(tài)信息，比如3D檢測中的目標3D框(x, y, z, w, l, h, yaw, vx, vy)；我們通過kmeans 算法來對anchor 的中心點分布進行初始化；同時，在網(wǎng)絡(luò)中我們會基于一個MLP網(wǎng)絡(luò)來對anchor的結(jié)構(gòu)化狀態(tài)進行高維空間映射得到 Anchor Embed ，并與instance feature 相融合。

基于以上定義，我們可以初始化一系列instance，經(jīng)過每一層decoder都會對instance 進行調(diào)整，包括instance feature的更新，和anchor的refine?；诿總€instance 最終預(yù)測的bounding box，Sparse4D 中同樣通過Bipartite 匹配的方式與真值進行匹配并計算損失函數(shù)。

Deformable 4D Aggregation 模塊

圖3 deformable aggregation結(jié)構(gòu)圖

在Sparse4D 的decoder 中，最重要的是Deformable 4D Aggreagation 模塊。這個模塊主要負責instance 與時序圖像特征之間的交互，如圖3所示，主要包括三個步驟：

1. 4D 關(guān)鍵點生成

首先，基于每個instance 的3D anchor信息，我們可以生成一系列3D關(guān)鍵點，分為固定關(guān)鍵點和可學(xué)習關(guān)鍵點。我們將固定關(guān)鍵點設(shè)置為anchor box的各面中心點及其立體中心點，可學(xué)習關(guān)鍵點坐標通過instance feature接一層全連接網(wǎng)絡(luò)得到。在Sparse4D 中，我們采用了7個固定關(guān)鍵點 + 6個可學(xué)習關(guān)鍵點的配置。

然后，我們結(jié)合instance 自身的速度信息以及自車的速度信息，對這些3D關(guān)鍵點進行運動補償，獲得其在歷史時刻中的位置。結(jié)合當前幀和歷史幀的3D關(guān)鍵點，我們獲得了每個instance 的4D 關(guān)鍵點。

2. 4D 特征采樣

在獲得每個instance 在當前幀和歷史幀的3D關(guān)鍵點后，我們根據(jù)相機的內(nèi)外參將其投影到對應(yīng)的多視角多尺度特征圖上進行雙線性插值采樣。從而得到Multi-Keypoint，Multi-Timestamp, Multi-Scale, Multi-View 的特征表示。

3. 層級化特征融合

在采樣得到多層級的特征表示后，需要進行層級化的特征融合，我們分為了三層：

?Fuse Multi-Scale/View：對于一個關(guān)鍵點在不同特征尺度和視角上的投影，我們采用了加權(quán)求和的方式，權(quán)重系數(shù)通過將instance feature和anchor embed輸入至全連接網(wǎng)絡(luò)中得到

?Fuse Multi-Timestamp：對于時序特征，我們采用了簡單的recurrent策略（concat + linear）來融合

?Fuse Multi-Keypoint：最后，我們采用求和的方式融合同一個instance 不同keypoint 的特征

實驗驗證

我們在nuScenes 數(shù)據(jù)集上對Sparse4D 方法展開了很多實驗驗證，這里列舉幾個主要的實驗。

1. 運動補償：Sparse4D針對自車運動和instance運動都進行了補償。目前，大多數(shù)算法僅顯式考慮了自車運動。我們通過實驗分析了運動補償?shù)淖饔?，如?所示。對于NDS指標來說，自車運動和他車運動分別帶來了6.4%和0.7%的提升，他車運動補償對檢測精度無提升，但是對速度估計精度的提升非常顯著(mAVE從0.398降低至0.329)。

表1 運動補償?shù)挠绊?/p>
2. 多層次特征融合：在deformable aggregation中，我們需要對多尺度、多視角和多關(guān)鍵點的特征進行融合。為了分析各個層級融合的重要程度，我們分別將各層的加權(quán)方式改為直接求和，可以看到多尺度的影響小于多視角，而多關(guān)鍵點的融合最為重要。此外，將三個層級的融合全部改為求和的形式，模型將難以收斂，指標也會顯著降低。

表2 多層級融合的影響

3. 采樣時序融合幀數(shù)：Spase4D v1中，采用多幀采樣的方式實現(xiàn)時序融合，其中采樣幀數(shù)對感知性能的影響顯著。我們將幀數(shù)從0逐步增加至10，感知性能一直在穩(wěn)步提升，說明長時序融合對檢測性能有很大幫助。但是由于顯存限制，我們僅驗證到了10幀。

表3采樣時序融合幀數(shù)影響

4. 效率與指標分析：如下表所示，在單幀配置下，我們的方法速度與DETR3D持平，且指標顯著優(yōu)于DETR3D。但在時序配置下，Sparse4D的效率出現(xiàn)了顯著的下降。這是因為對于每一幀的檢測，我們都需要進行當前幀和歷史多幀的特征采樣和特征融合。這里包含了很多冗余的計算，使得多幀效率顯著低于單幀效率。針對這個問題，我們在最近對時序策略進行了優(yōu)化，提出了Sparse4D-v2 方案，使得其時序推理效率和單幀推理基本一致。

表4在Resnet101 backbone + 900x1600 輸入分辨率配置下的效率對比

Sparse4D-v2：Recurrent 時序方案 & 進一步效率優(yōu)化

為了避免多幀采樣，進而提升時序特征融合的效率，我們在Sparse4D v2中采用了recurrent的方式來實現(xiàn)時序信息的傳遞。具體而言，如下圖所示，Sparse4D v2中以instance作為時序信息傳遞的媒介。此外，我們還提出了更高效的Deformable Aggregation 模塊，并引入了輔助訓(xùn)練loss。

基于稀疏實例的Recurrent 時序方案

Sparse4D v2算法框架

在Sparse4D-v2中，我們將decoder分為單幀層和時序?qū)?。單幀層以新初始化的instance作為輸入，輸出一部分高置信度的instance至時序?qū)?；時序?qū)拥膇nstance除了來自于單幀層的輸出以外，還來自于歷史幀（上一幀）。我們將歷史幀的instance投影至當前幀，其中，instance feature保持不變，anchor box通過自車運動和目標速度投影至當前幀，anchor embed通過對投影后的anchor進行編碼得到，如公式1。

公式1 instance時序轉(zhuǎn)換

其中投影公式與anchor定義相關(guān)，對于3D 檢測任務(wù)，我們使用的投影公式如公式2。

公式2 anchor 3D box時序投影

近期效果很好的方法StreamPETR也采用了稀疏的Recurrent 時序框架，Sparse4D v2與其的區(qū)別主要在于：

? Instance 表示方式：PETR系列中，query instance 采用的是 “Anchor Point -> Query 特征”的方式。即將均勻分布在3D 空間中的anchor point（learnable）用MLP編碼成Query 特征。比起Sparse4D instance 中顯式分離feature （紋理語義信息）和3D anchor（幾何運動信息）的方式，PETR的instance 表示方式更加隱式一些。我們認為feature + anchor box的顯式instance表示方式，在稀疏3D檢測任務(wù)中更加簡潔有效，也更易于訓(xùn)練；

? 時序轉(zhuǎn)換方式：與instance 表示方法相對應(yīng)的是稀疏Reccurent 的方式。StreamPETR 中，采用了隱式的query時序轉(zhuǎn)換方式，即把velocity、ego pose、timestamp都編碼成特征，然后再和query feature做一些乘加操作；Sparse4d-V2 則采用了顯式的時序轉(zhuǎn)換方式，對于歷史幀的instance，直接將其3D anchor基于自車和instance 運動投影到當前幀，而保持其instance feature不變；

?歷史幀數(shù)量：StreamPETR 中 cache了歷史N幀的query，再與當前幀進行attention。Sparse4d-v2 則只cache了上一幀的query。當然，StreamPETR 也可以只cache 一幀，只是效果會略有下降。在實際的業(yè)務(wù)實踐中，較少的歷史幀cache 有助于減少端上的帶寬占用，進一步提升系統(tǒng)整體性能。

Efficient Deformable Aggregation

此外，在Sparse4D v2中，我們還對deformable aggregation模塊進行了底層的分析和優(yōu)化，讓其并行計算效率顯著提升，顯存占用大幅降低?；趐ytorch op組合的Basic Deformable Aggregation 計算邏輯實現(xiàn)如下圖所示：

Basic Deformable Aggregation

可以發(fā)現(xiàn)其會生成多個中間變量，需要對顯存進行多次訪問和存儲，降低了推理速度，且中間變量尺寸較大，從而導(dǎo)致顯存占用量顯著增加，并且反向傳播過程中的顯存消耗會進一步提升。

為了提升該op的計算效率，降低顯存占用，我們將上述實現(xiàn)中的雙線性特征插值和加權(quán)求和融合為一個op，如下圖所示，我們稱之為Efficient Deformable Aggregation(EDA)。EDA的關(guān)鍵在于將“先采樣所有特征再融合”的方式變成了“并行地邊采樣邊融合”，其允許在關(guān)鍵點維度和特征維度上實現(xiàn)完全的并行化，每個線程的計算復(fù)雜度僅與相機數(shù)量和特征尺度數(shù)量相關(guān)：。此外，在某些場景中，3D空間中的一個點最多被投影到兩個視圖，使得計算復(fù)雜度可以進一步降低至。EDA可以作為一種基礎(chǔ)性的算子操作，可以適用于需要多圖像和多尺度融合的各種應(yīng)用。

Efficient Deformable Aggregation

我們在3090上對EDA模塊進行了性能測試。EDA對顯存占用和推理速度都有很大的優(yōu)化效果。加上EDA之后，Sparse4Dv2在nuScenes單次實驗訓(xùn)練時間只需要14.5小時(8 GPUs)，推理速度可達20.3FPS，且batch size=1時訓(xùn)練顯存僅為3100M。

EDA性能分析，image size為256X704，backbone為resnet50，訓(xùn)練epoch數(shù)為100

相機編碼的加入 & 輔助訓(xùn)練任務(wù)

為了提高模型對相機內(nèi)外參泛化性，我們在Sparse4D v2中加入了內(nèi)外參的編碼，將相機投影矩陣通過全連接網(wǎng)絡(luò)映射到高維特征空間得到camera embed。在計算deformable aggregation中的attention weights 時，我們不僅考慮instance feature和anchor embed，還加上了camera embed。

在實驗中，我們發(fā)現(xiàn)基于稀疏的方法在早期訓(xùn)練階段缺乏足夠的收斂能力和速度。為了緩解這一問題，我們還引入了以點云為監(jiān)督的多尺度密集深度估計方法作為輔助訓(xùn)練任務(wù)。而在推理過程中，這個分支網(wǎng)絡(luò)將不會被激活，不影響推理效率。

實驗驗證

1. Ablation Study

我們首先基于Resnet50 + 256x704 分辨率的配置展開了消融實驗。如下表所示：

?對比Exp1 和Exp5可以看出，采用recurrent instance的形式來實現(xiàn)長時序融合，相比單幀提升非常大；

?對比Exp4 和Exp5可以看出，深度監(jiān)督模塊，有效降低了Sparse4D-V2的收斂難度，如果去掉該模塊，模型訓(xùn)練過程會出現(xiàn)梯度崩潰的現(xiàn)象，從而使得mAP降低了8.5%。(在不具備深度監(jiān)督條件的情況下，也可以考慮使用2D 的檢測head 作為輔助loss，如FCOS Head，YoloX等）；

?對比Exp2 和Exp3可以看出，單幀層 + 時序?qū)拥慕M合方式比起只使用時序?qū)拥男Ч煤芏啵?/p>
?對比Exp3 和Exp5可以看出，相機參數(shù)編碼也帶來了可觀的提升，mAP和NDSf分別提升了2.0%和1.5%。

Sparse4D v2消融實驗：MF(Multi-Frame), SFL(Single-Frame Layer), CPE(Camera Parameter Encoding), DDS(Dense Depth Supervision)

此外，Exp1 （單幀）在3090 上的推理速度為21.0 FPS，Exp5（時序）的推理速度則為20.3 FPS?？梢钥闯?，在recurrent 時序融合框架下，其推理速度和單幀推理基本一致，增加了少量歷史instance 映射的耗時。

2. Compare with SOTA

我們先在nuScenes validation數(shù)據(jù)集上進行了對比，可以無論是在低分辨率+ResNet50還是高分辨率+ResNet101的配置下，Sparse4D v2都取得了SOTA的指標，超過了SOLOFusion、VideoBEV和StreamPETR等算法。

從推理速度來看，在256X704的圖像分辨率下，Sparse4Dv2超過了LSS-Based算法BEVPoolv2，但是低于StreamPETR。但是當圖像分辨率提升至512X1408，Sparse4Dv2的推理速度會反超StreamPETR。這主要是因為在低分辨率下直接做global attention的代價較低，但隨著特征圖尺寸的上升其效率顯著下降。而Sparse4D head理論計算量則和特征圖尺寸無關(guān)，這也展示了純稀疏范式算法在效率上的優(yōu)勢。實際測定中，當圖像分辨率從256x704 提升到512x1408時，Sparse4Dv2 的decoder 部分耗時僅增加15%（從高分辨率特征上進行g(shù)rid sample，會比從低分辨率特征上進行g(shù)rid sample 略慢一點）。

nuScenes validtion dataset指標對比，“Rec N”表示recurrent融合算法中cache時序特征幀數(shù)為“N”，倒數(shù)第二行和第四行的上標表示采用了nuImage Pretrain 的backbone

在nuScenes test數(shù)據(jù)集上，Sparse4Dv2同樣獲得了SOTA的指標，超過了所有BEV-based算法，同時也比目前SOTA的StreamPETR高0.2NDS。

nuScenes test dataset指標對比

總結(jié)與展望

總的來說，在長時序稀疏化3D 目標檢測的一路探索中，我們主要有如下的收獲：

1. 顯式的稀疏實例表示方式：將待檢測的instance 表示為3D anchor 和 instance feature，并不斷進行迭代更新來獲得檢測結(jié)果是一種簡潔、有效的方式。同時，這種方式也更容易進行時序的運動補償；

2. 高效的Deformable Aggregation 算子：我們提出了針對多視角/多尺度圖像特征 + 多關(guān)鍵點的層級化特征采樣與融合策略，并進行了大幅的效率優(yōu)化，使我們能高效獲得高質(zhì)量的特征表示。同時在稀疏化的形式下，decoder 部分的計算量和計算延時受輸入圖像分辨率的影響不大，能更好處理高分辨率輸入；

3. Recurrent 的時序稀疏融合框架：基于稀疏實例的時序recurrent 融合框架，使得時序模型基本上具備與單幀模型相同的推理速度，同時在幀間只需要占用少量的帶寬（比起bev 的時序方案）。這樣輕量且有效的時序方案很適合在真實的車端場景處理多攝視頻流數(shù)據(jù)。

基于稀疏范式的感知算法仍然有很多未解決的問題，也具有很大的發(fā)展空間。首先，如何將Sparse的框架應(yīng)用到更廣泛的感知任務(wù)上是下一步需要探索的，例如道路元素的感知任務(wù)（HD map construction、 topology等）、預(yù)測規(guī)控任務(wù)（trajectory prediction、end-to-end planning等）；其次，我們需要對稀疏感知算法進行更充足的驗證，保證其具備量產(chǎn)能力，例如遠距離檢測效果、相機內(nèi)外參泛化能力及多模態(tài)融合感知性能等。我們希望Sparse4D(v2)可以作為稀疏感知方向新的baseline，推動該領(lǐng)域的進步。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4615

瀏覽量
93017

目標檢測

目標檢測

+關(guān)注

關(guān)注
0

文章
209

瀏覽量
15627

自動駕駛

自動駕駛

+關(guān)注

關(guān)注
784

文章
13844

瀏覽量
166564

原文標題：開發(fā)者說 | Sparse4D系列算法：邁向長時序稀疏化3D目標檢測的新實踐

文章出處：【微信號：horizonrobotics，微信公眾號：地平線HorizonRobotics】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

收藏人收藏

掃一掃，分享給好友

復(fù)制鏈接分享

評論

發(fā)布評論請先登錄

相關(guān)推薦

芯片的3D化歷程

芯片的3D化歷程摩爾定律遇到發(fā)展瓶頸，但市場對芯片性能的要求卻沒有降低。在這種情況下，芯片也開始進行多方位探索，以尋求更好的方式來提升性能。通過近些年來相關(guān)半導(dǎo)體企業(yè)發(fā)布的成果顯示，我們發(fā)現(xiàn)，芯片

發(fā)表于 03-19 14:04

基于ToF的3D活體檢測算法研究

什么是活體檢測？什么又是3D活體檢測？以及怎么實現(xiàn)惡劣環(huán)境（如人臉遮擋、惡劣光照等）與人臉多姿態(tài)變化（如側(cè)臉、表情等）應(yīng)用場景下的活體檢測呢？本文將會圍繞這些問題，介紹數(shù)跡智能的最新成

發(fā)表于 01-06 07:30

浩辰3D的「3D打印」你會用嗎？3D打印教程

3D打印技術(shù)是綜合了三維數(shù)字技術(shù)、控制技術(shù)、信息技術(shù)眾多技術(shù)的創(chuàng)新研發(fā)技術(shù)，具有設(shè)計樣式多元化、試制成本低、制作材料豐富等特點。通過數(shù)字化設(shè)計工具+3D打印技術(shù)相結(jié)的模式，可以幫助企業(yè)

發(fā)表于 05-27 19:05

3D圖像生成算法的原理是什么？

什么是3D圖形芯片？3D圖像生成算法的原理是什么？

發(fā)表于 06-04 06:29

3D分組密碼算法

針對3D分組密碼算法的安全性分析，對該算法抵抗中間相遇攻擊的能力進行了評估?；?b class='flag-5'>3D算法的基本結(jié)構(gòu)及S盒的差分性質(zhì)，減少了在構(gòu)造多重集時所需

發(fā)表于 01-14 15:08 ?0次下載

大疆、港科大聯(lián)手！雙目3D目標檢測實驗效果大放送

keypoint的檢測。這里采用的是類似于mask rcnn的結(jié)構(gòu)進行關(guān)鍵點的預(yù)測。文章定義了4個3D semantic keypoint，即車輛底部的3D corner point，

發(fā)表于 03-12 09:43 ?4370次閱讀

谷歌開發(fā)pipeline，在移動設(shè)備上可實時計算3D目標檢測

3月13日消息，谷歌宣布推出 MediaPipe Objectron，這是一種適用于日常物體的移動端實時3D目標檢測 pipeline，它能夠檢測

發(fā)表于 03-13 15:41 ?2791次閱讀

3D的感知技術(shù)及實踐

測量表面法向量估計幾何測量平面提取 3D重建從離散點云得到光滑曲面 3D重建ICP點云配準 3D重建SDF表面重建應(yīng)用例子：從稀疏的點云中，構(gòu)造出可以

發(fā)表于 10-23 09:40 ?3243次閱讀

3D目標檢測是否可以用層級圖網(wǎng)絡(luò)來完成

電子發(fā)燒友網(wǎng)站提供《3D目標檢測是否可以用層級圖網(wǎng)絡(luò)來完成.pdf》資料免費下載

發(fā)表于 11-26 16:55 ?9次下載

VJ系列3D輪廓測量儀，一鍵輕松獲得2D/3D參數(shù)

隨著我國制造業(yè)不斷邁向精密化、高端化，對檢測手段和檢測能力提出了更高的要求，作為產(chǎn)品輪廓尺寸檢測

發(fā)表于 03-31 11:26 ?1148次閱讀

CCV 2023 | SparseBEV：高性能、全稀疏的純視覺3D目標檢測器

本文介紹在3D 目標檢測領(lǐng)域的新工作：SparseBEV。我們所處的 3D 世界是稀疏的，因此稀疏

發(fā)表于 09-19 10:00 ?1019次閱讀

如何搞定自動駕駛3D目標檢測！

可用于自動駕駛場景下基于圖像的3D目標檢測的數(shù)據(jù)集總結(jié)。其中一些數(shù)據(jù)集包括多個任務(wù)，這里只報告了3D檢測基準（例如KITTI

發(fā)表于 01-05 10:43 ?595次閱讀

地平線正式開源Sparse4D算法

地平線將業(yè)內(nèi)領(lǐng)先的純視覺自動駕駛算法——Sparse4D系列算法開源，推動行業(yè)更多開發(fā)者共同參與到端到端自動駕駛、稀疏感知等前沿技術(shù)方向的探

發(fā)表于 01-23 10:18 ?796次閱讀

Sparse4D-v3：稀疏感知的性能優(yōu)化及端到端拓展

上限，解決更多的corner case，讓系統(tǒng)更加魯棒。因此，在Sparse4D-v3中，我們主要做了兩部分工作，其一是進一步提升模型的檢測性能，另一是將Sparse4D拓展為一個端到端跟蹤模型，實現(xiàn)多視角視頻到

發(fā)表于 01-23 10:20 ?1422次閱讀

Nullmax提出多相機3D目標檢測新方法QAF2D

今天上午，計算機視覺領(lǐng)域頂會CVPR公布了最終的論文接收結(jié)果，Nullmax感知部門的3D目標檢測研究《Enhancing 3D Object Detection with 2

發(fā)表于 02-27 16:38 ?1157次閱讀