0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Sparse4D-v3:稀疏感知的性能優(yōu)化及端到端拓展

地平線HorizonRobotics ? 來源:地平線HorizonRobotics ? 2024-01-23 10:20 ? 次閱讀

極致的感知性能與極簡的感知pipeline一直是牽引我們持續(xù)向前的目標(biāo)。為了實現(xiàn)該目標(biāo),打造一個性能優(yōu)異的端到端感知模型是重中之重,充分發(fā)揮深度神經(jīng)網(wǎng)絡(luò)+數(shù)據(jù)閉環(huán)的作用,才能打破當(dāng)前感知系統(tǒng)的性能上限,解決更多的corner case,讓系統(tǒng)更加魯棒。因此,在Sparse4D-v3中,我們主要做了兩部分工作,其一是進一步提升模型的檢測性能,另一是將Sparse4D拓展為一個端到端跟蹤模型,實現(xiàn)多視角視頻到目標(biāo)運動軌跡端到端感知。

在Sparse4D-v2的落地過程中,我們發(fā)現(xiàn)其感知性能仍然具備一定的提升空間。

1. 首先,我們從訓(xùn)練優(yōu)化的角度對Sparse4D進行了分析。我們觀察發(fā)現(xiàn)以稀疏形式作為輸出的模型,大多數(shù)都面臨這個收斂困難的問題,收斂速度相對較慢、訓(xùn)練不穩(wěn)定導(dǎo)致最終指標(biāo)不高。因此我們參考DETR-like 2D檢測算法,引入了最為有效的提升模型訓(xùn)練穩(wěn)定性的輔助任務(wù)——"query denoising",并將其在時序上進行了拓展;

2. 其次,我們觀察到相比以dense-heatmap做輸出的模型,以稀疏形式作為輸出的模型其距離誤差明顯要更大。經(jīng)過分析與實驗論證,我們認(rèn)為這是由于檢測框置信度不足以反應(yīng)框的精度導(dǎo)致的。因此,我們能提出另外一個輔助訓(xùn)練任務(wù) "quality estimation",這個任務(wù)不僅讓模型的檢測指標(biāo)更高,還在一定程度上加速了模型收斂;

3. 最后,為了進一步提升模型性能,我們還對網(wǎng)絡(luò)結(jié)構(gòu)進行了小幅的優(yōu)化。對于instance feature直接的特征交互模塊,我們提出decoupled attention,在幾乎不增加推理時延的情況下提升了感知效果。

除了可以獲得更高效的檢測能力以外,我們致力于發(fā)展稀疏感知框架的另一原因就是其能夠更容易的將下游任務(wù)(如跟蹤、預(yù)測及規(guī)劃)以端到端的形式擴展進來。因此,在Sparse4D-v3中,我們成功地將多目標(biāo)跟蹤任務(wù)加入到模型中,實現(xiàn)了極致簡潔的訓(xùn)練和推理流程,既無需在訓(xùn)練過程中添加跟蹤約束,也無需進行任何的跟蹤后處理(關(guān)聯(lián)、濾波和生命周期關(guān)聯(lián)),并且NuScenes上的實驗結(jié)果證實了該跟蹤方案的有效性。我們希望Sparse4D-v3的端到端跟蹤方案會推動多目標(biāo)跟蹤算法的快速發(fā)展。

1. Temporal Instance Denoising

f89e3744-b91b-11ee-8b88-92fbcf53809c.png

(a)中灰色和橙色模塊僅在訓(xùn)練中使用,推理階段只需保留; (b)灰色方格代表attention mask=True。

我們對GT加上小規(guī)模噪聲來生成noisy instance,用decoder來進行去噪,這樣可以較好的控制instance和GT之間的偏差范圍,decoder 層之間匹配關(guān)系穩(wěn)定,讓訓(xùn)練更加魯棒,且大幅增加正樣本的數(shù)量,讓模型收斂更充分,以得到更好的結(jié)果。具體來說,我們設(shè)置兩個分布來生產(chǎn)噪聲Delta_A,用于模擬產(chǎn)生正樣本和負(fù)樣本,對于3D檢測任務(wù)加噪公式如下:

f8af4a3e-b91b-11ee-8b88-92fbcf53809c.png

3D檢測加噪公式

加上噪聲的GT框需要重新和原始GT進行one2one匹配,確定正負(fù)樣本,而并不是直接將加了較大擾動的GT作為負(fù)樣本,這可以緩解一部分的分配歧義性。噪聲GT需要轉(zhuǎn)為instance的形式以輸入進網(wǎng)絡(luò)中,首先噪聲GT可以直接作為anchor,把噪聲GT編碼成高維特征作為anchor embed,相應(yīng)的instance feature直接以全0來初始化。

為了模擬時序特征傳遞的過程,讓時序模型能得到denoising任務(wù)更多的收益,我們將單幀denoising拓展為時序的形式。具體地,在每個訓(xùn)練step,隨機選擇部分noisy-instance組,將這些instance通過ego pose和velocity投影到當(dāng)前幀,投影方式與learnable instance一致。

具體實現(xiàn)中,我們設(shè)置了5組noisy-instance,每組最大GT數(shù)量限制為32,因此會增加5*32*2=320個額外的instance。時序部分,每次隨機選擇2組來投影到下一幀。每組instance使用attention mask完全隔開,與DINO中的實現(xiàn)不一樣的是,我們讓noisy-instance也無法和learnable instance進行特征交互,如上圖(b)。

2.Quality Estimation

除了denoising,我們引入了第二個輔助監(jiān)督任務(wù),Quality Estimation,初衷一方面是加入更多信息讓模型收斂更平滑,另一方面是讓輸出的置信度排序更準(zhǔn)確。對于第二點,我們在實驗過程中,發(fā)現(xiàn)兩個異?,F(xiàn)象:

1.相比dense-based算法,query-based算法的mATE(mean Average-Translation Error)指標(biāo)普遍較差,即使是confidence高的預(yù)測結(jié)果也會存在較大的距離誤差,如下圖(a);

2. Sparse4D在行人上的Precision-Recall曲線前半段會迅速降低,如下圖(b);

f8d00d46-b91b-11ee-8b88-92fbcf53809c.png

(a)confidence-translation error曲線,NuScenes val set

f8e5631c-b91b-11ee-8b88-92fbcf53809c.png

(b)precision-recall error曲線,NuScenes val set

上述現(xiàn)象說明,Sparse4D輸出的分類置信度并不適合用來判斷框的準(zhǔn)確程度,這主要是因為one2one 匈牙利匹配過程中,正樣本離GT并不能保證一定比負(fù)樣本更近,而且正樣本的分類loss并不隨著匹配距離而改變。而對比dense head,如CenterPoint或BEV3D,其分類label為heatmap,隨著離GT距離增大,loss weight會發(fā)生變化。

因此,除了一個正負(fù)樣本的分類置信度以外,還需要一個描述模型結(jié)果與GT匹配程度的置信度,也就是進行Quality Estimation。對于3D檢測來說,我們定義了兩個quality指標(biāo),centerness和yawness,公式如下:

f8ff1cf8-b91b-11ee-8b88-92fbcf53809c.png

對于centerness和yawness,我們分別用cross entropy loss和focal loss來進行訓(xùn)練。

f90c3ef6-b91b-11ee-8b88-92fbcf53809c.png

從上圖的曲線來看,對比Sparse4D v3和v2,可以看出加入Quality Estimation之后,有效緩解了排序不準(zhǔn)確的問題。

3. Decoupled Attention

Sparse4D中有兩個instance attention模塊,1)instance self-attention和2)temporal instance cross-attention。在這兩個attention模塊中,將instance feature和anchor embed相加作為query與key,在計算attention weights時一定程度上會存在特征混淆的問題,如圖下所示。

f91c80c2-b91b-11ee-8b88-92fbcf53809c.png

為了解決這問題,我們對attention模塊進行了簡單的改進,將所有特征相加操作換成了拼接,提出了decoupled attention module,結(jié)構(gòu)如下圖所示。

f939e46e-b91b-11ee-8b88-92fbcf53809c.png

4. End to End 3D Multi-object Tracking

由于Sparse4D已經(jīng)實現(xiàn)了目標(biāo)檢測的端到端(無需dense-to-sparse的解碼),進一步的我們考慮將端到端往檢測的下游任務(wù)進行拓展,即多目標(biāo)跟蹤。我們發(fā)現(xiàn)當(dāng)Sparse4D經(jīng)過充分檢測任務(wù)的訓(xùn)練之后,instance在時序上已經(jīng)具備了目標(biāo)一致性了,即同一個instance始終檢測同一個目標(biāo)。因此,我們無需對訓(xùn)練流程進行任何修改,只需要在inference階段對instance進行ID assign即可,infer pipeline如下所示。

f96db6fe-b91b-11ee-8b88-92fbcf53809c.png

對比如MOTR(v1 & v3)、TrackFormer、MUTR3D等一系列端到端跟蹤算法,我們的實現(xiàn)方式具有以下兩點不同:

訓(xùn)練階段,無需進行任何tracking的約束。這一做法一定程度上打破了對多目標(biāo)跟蹤訓(xùn)練的常規(guī)認(rèn)知,我們進行以下簡單分析:

a. 對于3D檢測任務(wù),我們加入了他車的運動補償,當(dāng)上一幀檢測結(jié)果和速度估計準(zhǔn)確時,投影到當(dāng)前幀的temporal instance就可以準(zhǔn)確的匹配到同一目標(biāo)。因此,我們認(rèn)為目標(biāo)檢測任務(wù)的優(yōu)化目標(biāo)和目標(biāo)跟蹤一致,當(dāng)檢測任務(wù)訓(xùn)練充分時,即使不需要加入tracking約束,也可以獲得不錯的跟蹤效果。加入tracking 約束的實驗我們也嘗試過,但會導(dǎo)致檢測和跟蹤指標(biāo)均降低;

b. 相比于MOTR等2D跟蹤算法,3D跟蹤可以利用運動補償,一定程度上消除檢測和跟蹤任務(wù)在優(yōu)化目標(biāo)上的GAP,我認(rèn)為這可能是Sparse4D能去掉tracking 約束的一大原因;

c. 另外,相比于MUTR3D等3D跟蹤算法,Sparse4D的檢測精度顯著高于MUTR3D,也只有當(dāng)檢測精度足夠高時,才能擺脫對tracking 約束的依賴。

2. Temporal instance不需要卡高閾值,大部分temporal instance不表示一個歷史幀的檢測目標(biāo)。MOTR等方法中,為了更貼近目標(biāo)跟蹤任務(wù),采用的track query會經(jīng)過高閾值過濾,每個track query表示一個確切的檢測目標(biāo)。而Sparse4D中的temporal instance設(shè)計出發(fā)點是為了實現(xiàn)時序特征融合,我們發(fā)現(xiàn)有限的temporal instance數(shù)量會降低時序模型的性能,因此我們保留了更多數(shù)量的temporal instance,即使大部分instance為負(fù)樣本。

5. 實驗驗證

Ablation Study

在NuScenes validation數(shù)據(jù)集上進行了消融實驗,可以看出Sparse4D-v3的幾個改進點(temporal instance denoising、decoupled attention和quality estimation)對感知性能均有提升。

f98b022c-b91b-11ee-8b88-92fbcf53809c.png

Ablation Experiments of Sparse4D-v3


Compare with SOTA

在NuScenes detection和tracking兩個benchmark上,Sparse4D均達(dá)到了SOTA水平。

f9b5f3a6-b91b-11ee-8b88-92fbcf53809c.png

Results of Detection 3D on NuScenes Validation Set

f9cf4b1c-b91b-11ee-8b88-92fbcf53809c.png

Results of Detection 3D on NuScenes Test Set

f9e1906a-b91b-11ee-8b88-92fbcf53809c.png

Results of Tracking 3D on NuScenes Validation Set

f9f74644-b91b-11ee-8b88-92fbcf53809c.png

Results of Tracking 3D on NuScenes Test Set

Cloud-Based Performance Boost

針對云端系統(tǒng),為了進一步提升模型的性能,我們進行了Offline 模型和加大backbone的嘗試。

1. Offline 模型是通過加入未來幀特征,讓模型獲得更好效果,速度估計精度大幅提升,感知結(jié)果也更加平滑,對云端真值系統(tǒng)具有重要的意義。具體實現(xiàn)上,我們用Sparse4D-v1的多幀采樣的方式來融合未來幀特征,共加入了未來8幀的特征。這里的未來幀融合方式計算復(fù)雜度較高,如何搭建更加高效的Offline 模型,也是今后重要的研究方向之一;

2. 我們采用EVA02-large作為backbone,這一改進帶來的性能提升非常顯著。特別是對于稀有類別,EVA02的檢測精度有10+個點的提升。這主要得益于EVA02具有更大的參數(shù)量,經(jīng)過更充分的預(yù)訓(xùn)練,其參數(shù)量是ResNet101/VoVNet的3倍,并且在ImageNet-21k基于EVA-CLIP蒸餾+Mask Image Model的形式進行了充分的自監(jiān)督訓(xùn)練。大參數(shù)量+大數(shù)據(jù)+自監(jiān)督訓(xùn)練,讓模型收斂到更平坦的極值點,更加魯棒,具備更強的泛化性;

我們最終在NuScenes test數(shù)據(jù)集上獲得了NDS=71.9和AMOTA=67.7,在部分指標(biāo)上甚至超過了LiDAR-based和multi-modality的模型。

fa0845b6-b91b-11ee-8b88-92fbcf53809c.png

展望與總結(jié)

在對長時序稀疏化3D 目標(biāo)檢測的進一步探索過程中,我們主要有如下的收獲:

1. 卓越的感知性能:我們在稀疏感知框架下進行了一系列性能優(yōu)化,在不增加推理計算量的前提下,讓Sparse4D在檢測和跟蹤任務(wù)上都取得了SOTA的水平;

2. 端到端多目標(biāo)跟蹤:在無需對訓(xùn)練階段進行任何修改的情況下,實現(xiàn)了從多視角視頻到目標(biāo)軌跡的端到端感知,進一步減小對后處理的依賴,算法結(jié)構(gòu)和推理流程非常簡潔。

我們希望Sparse4D-v3能夠成為融合感知算法研究中的新的baseline,更多的研發(fā)者已經(jīng)加入進來。我們這里給出幾個值得進一步探索的方向:

1. Sparse4D-v3中對多目標(biāo)跟蹤的探索還比較初步,跟蹤性能還有提升空間;

2. 如何在端到端跟蹤的基礎(chǔ)上,進一步擴展下游任務(wù)(如軌跡預(yù)測和端到端planning)是重要的研究方向;

3. 將Sparse4D拓展為多模態(tài)模型,具有非常大的應(yīng)用價值;

4. Sparse4D還有待擴展為一個并行的多任務(wù)模型,比如加入online mapping、2D detection等。

.

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 噪聲
    +關(guān)注

    關(guān)注

    13

    文章

    1137

    瀏覽量

    47879
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4698

    瀏覽量

    94725
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3486

    瀏覽量

    49988
  • 深度神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    0

    文章

    62

    瀏覽量

    4670

原文標(biāo)題:Sparse4D-v3:稀疏感知的性能優(yōu)化及端到端拓展

文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    移動協(xié)作機器人的RGB-D感知處理方案

    本文提出了一種用于具有雙目視覺的自主機器人的三維語義場景感知流程。該流程包括實例分割、特征匹配和點集配準(zhǔn)。首先,利用RGB圖像進行單視圖三維語義場景分割,將2
    發(fā)表于 02-21 15:55 ?998次閱讀
    移動協(xié)作機器人的RGB-<b class='flag-5'>D</b><b class='flag-5'>感知</b>的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>處理方案

    稀疏鏡像在OpenHarmony上的應(yīng)用

    為777。(3)編譯后的鏡像對比編譯出的鏡像格式為sparse格式,鏡像大小相比raw格式明顯變小。(4)燒錄稀疏鏡像燒錄稀疏鏡像方法和燒錄
    發(fā)表于 02-08 14:32

    基于虛擬時鐘的MANET性能分析模型

    在MANET 中,節(jié)點移動對性能產(chǎn)生消極影響。為了量化此影響,結(jié)合鏈路可用度的概念,將分組發(fā)送至下一跳的平均時間作為虛擬時鐘節(jié)拍,提出一種基于虛擬時鐘的MANET
    發(fā)表于 03-23 09:01 ?18次下載

    的802.11n測試/802.11v網(wǎng)絡(luò)協(xié)議解析

    的802.11n測試/802.11v網(wǎng)絡(luò)協(xié)議解析 基于802.11n草案標(biāo)準(zhǔn)的無線產(chǎn)品已經(jīng)大量出現(xiàn),不過在現(xiàn)實的生產(chǎn)環(huán)境中,這些產(chǎn)品的性能
    發(fā)表于 03-29 17:09 ?1457次閱讀

    基于深度神經(jīng)網(wǎng)絡(luò)的圖像壓縮方法

    人工設(shè)計的算法分別進行優(yōu)化近年來,基于深度神經(jīng)網(wǎng)絡(luò)的圖像壓縮方法在圖像壓縮中取得了豐碩的成果,相比傳統(tǒng)方法,
    發(fā)表于 04-08 09:30 ?16次下載
    基于深度神經(jīng)網(wǎng)絡(luò)的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>圖像壓縮方法

    華為發(fā)布“5G+8K”3D VR解決方案

    [中國,上海,2021年4月8日] 華為發(fā)布面向5.5G上行超寬帶(UCBC)演進的“5G+8K”3D VR解決方案,有效突破傳統(tǒng)
    的頭像 發(fā)表于 04-13 11:26 ?2533次閱讀

    一種的立體深度感知系統(tǒng)的設(shè)計

    ? ? 本文提出了一種生產(chǎn)化的立體深度感知系統(tǒng)設(shè)計,可以完成預(yù)處理、在線立體校正和立體深度估計,并支持糾偏失敗后的單目深度估計備選方案。同時,該深度
    的頭像 發(fā)表于 05-26 16:12 ?944次閱讀
    一種<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的立體深度<b class='flag-5'>感知</b>系統(tǒng)的設(shè)計

    如何實現(xiàn)高精度的3D感知

    ? 自動駕駛是自動駕駛技術(shù)的重要發(fā)展方向之一。而要實現(xiàn)自動駕駛,離不開高精度
    的頭像 發(fā)表于 10-17 09:53 ?1432次閱讀

    地平線正式開源Sparse4D算法

    地平線將業(yè)內(nèi)領(lǐng)先的純視覺自動駕駛算法——Sparse4D系列算法開源,推動行業(yè)更多開發(fā)者共同參與自動駕駛、
    的頭像 發(fā)表于 01-23 10:18 ?1161次閱讀

    理想汽車自動駕駛模型實現(xiàn)

    理想汽車在感知、跟蹤、預(yù)測、決策和規(guī)劃等方面都進行了模型化,最終實現(xiàn)了的模型。這種模型不僅完全模型化,還能夠虛擬化,即在模擬環(huán)境中進行訓(xùn)練和測試。
    發(fā)表于 04-12 12:17 ?663次閱讀
    理想汽車自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型實現(xiàn)

    爆火的如何加速智駕落地?

    自動駕駛,唯有?)技術(shù)通過消除模塊間數(shù)據(jù)傳遞中的信息損耗和延遲,以神經(jīng)網(wǎng)絡(luò)驅(qū)動
    的頭像 發(fā)表于 11-26 13:17 ?955次閱讀
    爆火的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>如何加速智駕落地?

    自動駕駛技術(shù)研究與分析

    編者語:「智駕最前沿」微信公眾號后臺回復(fù):C-0450,獲取本文參考報告:《自動駕駛行業(yè)研究報告》pdf下載方式。 自動駕駛進入2024年,
    的頭像 發(fā)表于 12-19 13:07 ?782次閱讀

    一種以圖像為中心的3D感知模型BIP3D

    在具身智能系統(tǒng)中,3D感知算法是一個關(guān)鍵組件,它在側(cè)幫助可以幫助智能體理解環(huán)境信息,在云端可以用來輔助生成3D場景和3D標(biāo)簽,具備重要的研
    的頭像 發(fā)表于 03-17 13:44 ?348次閱讀
    一種以圖像為中心的<b class='flag-5'>3D</b><b class='flag-5'>感知</b>模型BIP<b class='flag-5'>3D</b>

    動量感知規(guī)劃的自動駕駛框架MomAD解析

    自動駕駛框架實現(xiàn)了感知與規(guī)劃的無縫集成,但通常依賴于一次性軌跡預(yù)測,這可能導(dǎo)致控制不穩(wěn)定,并且對單頓感知中的遮擋問題較為敏感。為解決這
    的頭像 發(fā)表于 03-18 09:31 ?760次閱讀
    動量<b class='flag-5'>感知</b>規(guī)劃的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛框架MomAD解析

    一文帶你厘清自動駕駛架構(gòu)差異

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術(shù)飛速發(fā)展,智能駕駛系統(tǒng)的設(shè)計思路也經(jīng)歷了從傳統(tǒng)模塊化架構(gòu)大模型轉(zhuǎn)變。傳統(tǒng)模塊化架構(gòu)將感知
    的頭像 發(fā)表于 05-08 09:07 ?164次閱讀
    一文帶你厘清自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架構(gòu)差異

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品