0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于圖卷積的層級圖網(wǎng)絡(luò)用于基于點云的3D目標檢測

454398 ? 來源:學(xué)術(shù)頭條 ? 作者:徐家興 ? 2021-06-21 12:15 ? 次閱讀

論文:A Hierarchical Graph Network for 3D Object Detection on Point Clouds

由于大多數(shù)現(xiàn)有的點云對象檢測方法不能充分適應(yīng)點云的特征(例如稀疏性),所以一些關(guān)鍵的語義信息(如物體形狀)不能被很好的捕捉到。本文提出了一種基于層級圖網(wǎng)絡(luò)(HGNet)的圖卷積(GConv),可以直接將點云作為輸入來預(yù)測 3D 的邊界框。形狀注意圖卷積(SA-GConv)可以通過劍魔點的位置星系來描述物體形狀,基于 SA-GConv 的 U 形網(wǎng)絡(luò)可以通過改進的 voting 模塊獲取多層級的特征進而生成候選,然后一個基于圖卷積的候選推理模塊考慮全局的場景語義來對邊界框進行預(yù)測。該框架在兩個大規(guī)模點云數(shù)據(jù)上的表現(xiàn)超過了目前最先進的模型。

論文背景

由于點云的稀疏性,一些已有的為網(wǎng)格形式數(shù)據(jù)設(shè)計的方法(如 CNN)在點云上的表現(xiàn)并不好,為解決這一問題,最近有一些對點云數(shù)據(jù)的方法被提出,例如基于投影的方法、基于體卷積的方法和基于 PointNet 的方法。前兩種試圖將點云數(shù)據(jù)嚴格轉(zhuǎn)換為網(wǎng)格結(jié)構(gòu)數(shù)據(jù),而后一種則在不明確考慮點的幾何位置的情況下聚合特征。

其他方法相比,PointNet++ 可以保留點的稀疏特點,因此被廣泛作為框架的骨架。當(dāng)目前仍有一些未能很好解決的挑戰(zhàn),首先由于沒有考慮點的相對幾何位置,因此使用 PointNet++ 作為主干忽略了一些局部形狀信息。其次,框架的結(jié)構(gòu)沒有充分利用多級語義,這可能會忽略一些有助于目標檢測的信息。

本文提出了一個基于圖卷積(GCONV)的層級圖網(wǎng)絡(luò)(HGNet)用于基于點云的 3D 目標檢測。HGNet 包含三部分:一個基于圖卷積的 U 形網(wǎng)絡(luò)(GUnet)、一個候選生成器以及一個候選推理模塊(ProRe Module)?;趯蛹増D網(wǎng)絡(luò)(HGNet)的圖卷積

整個 HGNet 以端到端的方式進行培訓(xùn)。在本文的框架中,點云的局部形狀信息、多級語義和全局場景信息(候選的特征)已被層級圖模型充分捕獲、聚合和合并,充分考慮了點云數(shù)據(jù)的特征。

本文的主要貢獻如下:

(A)開發(fā)了一種新的層級圖網(wǎng)絡(luò)(HGNet),用于在點云上進行 3D 對象檢測,其表現(xiàn)好于已有方法。

(B)提出了一種新穎的 SA-(De)GConv,它可以有效地聚合特征并捕獲點云中對象的形狀信息。

(C)構(gòu)建了一個新的 GU-net,用于生成多級特征,這對于 3D 對象檢測至關(guān)重要。

(D)利用全局信息,ProRe 模塊通過對候選進行推理來提高效果。

論文模型

pIYBAF-cV8yALlh9AAKzXXorTzM753.jpg

融合采樣

3D 目標檢測有基于點和基于體素兩種框架,前者更加耗時,由候選生成與預(yù)測細化兩個階段組成。

在第一個階段,SA 用于降采樣以獲得更高的效率以及擴大感受野,F(xiàn)P 用來為降采樣過程中丟掉的點傳播特征。在第二階段,一個優(yōu)化模塊最優(yōu)化 RPN 的結(jié)果以獲得更準確的預(yù)測。SA 對于提取點的特征是必需的。但 FP 和優(yōu)化模塊會限制效率。

形狀注意圖卷積

點云通常不能清楚地表示出物體的形狀,可以使用其相鄰點的相對幾何位置來描述點周圍的局部形狀。本文介紹了一種新穎的形狀注意圖卷積,它通過對點的幾何位置建模來捕獲對象形狀。

對于一個點集 X,其中每一個點由其集合位置 p_i 以及 D 維的特征 f_i 組成,我們想要生成一個 X’,本文設(shè)計了圖卷積用于聚合從 X 到 X’ 的特征。與 PointNet++的采樣層相類似,本文首先從 n 個點中采樣 n’ 個點,通常 K 最近鄰(KNN)被用來在采樣中保留局部信息將其作為中心點特征。

pIYBAF-cV86ABApMAAA25BZLxR8713.jpg

其中 g 表示 i 和 j 的相對位置,通過一個卷積將三維變?yōu)橐痪S,f 是 mlp,然后二者的乘積就是中心點的 knn,其中最大的作為 i 的特征。形狀注意操作不同于簡單的基于 mlp 的操作主要就是因為這個 g 函數(shù)。雖然形式上沒有 attention 中的 softmax 這樣的歸一化,但是 g 的輸出就和 attention 一樣,每個點的 weights,然后對應(yīng)的乘以特征。

o4YBAF-cV9iAADYDAAfuw2ITQns343.jpg

GU-net

本文設(shè)計了一個下采樣模塊,并將其重復(fù)堆疊 4 次以形成下采樣路徑,而將一個上采樣模塊重復(fù)堆疊兩次以構(gòu)成上采樣方式。類似 FPN、GU-net 生成三張點特征圖的特征金字塔。下采樣使用的是 FPS,然后通過 KNN 構(gòu)建局部區(qū)域,再使用 SA-GConv 更新特征,上采樣模塊的過程與下采樣模塊的過程相反,主要由 SA-GConv 執(zhí)行。

pIYBAF-cV96AZ4YhAAVmh5c6fG8299.jpg

候選生成器

GU-net 生成了包含多級語義的三張點特征圖。一些先前的方法(如 VoteNet)僅使用一個特征圖進行目標預(yù)測。即使通過在上采樣過程中融合較低層的特征來計算較高層的特征,由于不同層的特征提供了各種語義,因此將多層特征一起用于候選生成會更加有益。本文提出了一種候選生成器,以改進的投票模塊作為主要結(jié)構(gòu)來預(yù)測對象中心,該模型將多級特征轉(zhuǎn)換為相同的特征空間。接下來為了聚合特征,通過 FPS 保留 Np 的投票,該做法與 VoteNet 類似,從而融合多級特征以預(yù)測邊界框及其類別。

候選推理模塊

通過以上幾步,多層局部的語義信息已經(jīng)被很好的捕捉到了,但全局信息還沒有很好的學(xué)到,或者說可能有些目標在點云中只體現(xiàn)出很小的一部分表面的點,在這樣少的信息下很難正確的將其識別出來。其推理過程為:

o4YBAF-cV-CABjbfAAAyyHHn4tE694.jpg

其中 Hp 表示候選特征 tensor,P 表示候選的相對位置

論文實驗

本文在 SUN RGB-D 和 ScanNet-V2 兩個數(shù)據(jù)集上進行了實驗。

pIYBAF-cV-SAecV-AAIQCbTGyOM690.jpg

o4YBAF-cV-mAODbPAAM3xD0AqUY930.jpg

此外,本文還進行了消融實驗以證明各??斓挠行浴?/p>

o4YBAF-cV-6ALsTCAAKeSQs30fg144.jpg

結(jié)論

本文提出了一種新穎的 HGNet 框架,該框架通過層級圖建模學(xué)習(xí)語義。

具體來說,作者提出了一種新穎且輕巧的形狀注意圖卷積來捕獲局部形狀語義,該語義聚合了點的相對幾何位置的特征?;?SA-GConv 和 SA-DeGConv 構(gòu)建了 GU-net,生成了包含多級語義的特征金字塔。要素金字塔投票的點將位于相應(yīng)的對象中心,并且進一步聚合多級語義以生成候選。然后使用 ProRe 模塊在候選之間合并和傳播特征,從而利用全局場景語義來提高檢測性能。最后,對邊界框和類別進行了預(yù)測。

編輯:hfy


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關(guān)推薦

    AI模型部署邊緣設(shè)備的奇妙之旅:目標檢測模型

    的是百度的Picodet模型,它是一種基于深度卷積網(wǎng)絡(luò)(DNN)的輕量級目標檢測模型,具有非常高的檢測精度,可以在低算力設(shè)備進行實時的端到端
    發(fā)表于 12-19 14:33

    卷積神經(jīng)網(wǎng)絡(luò)的基本原理與算法

    ),是深度學(xué)習(xí)的代表算法之一。 一、基本原理 卷積運算 卷積運算是卷積神經(jīng)網(wǎng)絡(luò)的核心,用于提取圖像中的局部特征。 定義
    的頭像 發(fā)表于 11-15 14:47 ?695次閱讀

    一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

    機電系統(tǒng)中的故障檢測對其可維護性和安全性至關(guān)重要。然而,系統(tǒng)監(jiān)測變量往往具有復(fù)雜的聯(lián)系,很難表征它們的關(guān)系并提取有效的特征。本文開發(fā)了一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)(HGCAN),以提高復(fù)雜
    的頭像 發(fā)表于 11-12 09:52 ?278次閱讀
    一種基于因果路徑的層次<b class='flag-5'>圖卷積</b>注意力<b class='flag-5'>網(wǎng)絡(luò)</b>

    卷積神經(jīng)網(wǎng)絡(luò)共包括哪些層級

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是一種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像識別、語音識別、自然語言處理等領(lǐng)域。它以卷積層為核心,通過多層
    的頭像 發(fā)表于 07-11 15:58 ?1263次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)分類方法有哪些

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像分類、目標檢測、語義分割
    的頭像 發(fā)表于 07-03 09:40 ?471次閱讀

    cnn卷積神經(jīng)網(wǎng)絡(luò)分類有哪些

    卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像分類、目標檢測、語義分割等領(lǐng)域。本文將詳細介紹CNN在分類任務(wù)中的應(yīng)用,包括基本結(jié)構(gòu)
    的頭像 發(fā)表于 07-03 09:28 ?628次閱讀

    蘇州吳中區(qū)多色PCB板元器件3D視覺檢測技術(shù)

    3D視覺檢測相較于2D視覺檢測,有其獨特的優(yōu)勢,不受產(chǎn)品表面對比度影響,精確檢出產(chǎn)品形狀,可以測出高度(厚度)、體積、平整度等。在實際應(yīng)用中可以與2
    的頭像 發(fā)表于 06-14 15:02 ?416次閱讀
    蘇州吳中區(qū)多色PCB板元器件<b class='flag-5'>3D</b>視覺<b class='flag-5'>檢測</b>技術(shù)

    機器人3D視覺引導(dǎo)系統(tǒng)框架介紹

    通過自主開發(fā)的3D掃描儀可獲準確并且快速地獲取場景的云圖像,通過3D識別算法,可實現(xiàn)在對云圖中的多種目標物體進行識別和位姿估計。
    發(fā)表于 04-29 09:31 ?335次閱讀
    機器人<b class='flag-5'>3D</b>視覺引導(dǎo)系統(tǒng)框架介紹

    Nullmax提出多相機3D目標檢測新方法QAF2D

    今天上午,計算機視覺領(lǐng)域頂會CVPR公布了最終的論文接收結(jié)果,Nullmax感知部門的3D目標檢測研究《Enhancing 3D Object Detection with 2
    的頭像 發(fā)表于 02-27 16:38 ?1141次閱讀
    Nullmax提出多相機<b class='flag-5'>3D</b><b class='flag-5'>目標</b><b class='flag-5'>檢測</b>新方法QAF2<b class='flag-5'>D</b>

    基于深度學(xué)習(xí)的方法在處理3D進行缺陷分類應(yīng)用

    背景部分介紹了3D應(yīng)用領(lǐng)域中公開可訪問的數(shù)據(jù)集的重要性,這些數(shù)據(jù)集對于分析和比較各種模型至關(guān)重要。研究人員專門設(shè)計了各種數(shù)據(jù)集,包括用于3D
    的頭像 發(fā)表于 02-22 16:16 ?1162次閱讀
    基于深度學(xué)習(xí)的方法在處理<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>進行缺陷分類應(yīng)用

    標注神器!AAAI&apos;24最新:第一個交互式3D目標檢測器!

    考慮到3D的稀疏性質(zhì),iDet3D設(shè)計了負點擊模擬 (NCS),通過減少誤報預(yù)測來提高準確性。還結(jié)合了兩種點擊傳播技術(shù)來充分利用用戶交互:(1) 密集點擊引導(dǎo) (DCG),
    的頭像 發(fā)表于 01-16 16:08 ?554次閱讀
    標注神器!AAAI&apos;24最新:第一個交互式<b class='flag-5'>3D</b><b class='flag-5'>目標</b><b class='flag-5'>檢測</b>器!

    友思特C系列3D相機:實時3D云圖像

    3D相機
    虹科光電
    發(fā)布于 :2024年01月10日 17:39:25

    讓協(xié)作更便捷,3D工業(yè)相機獲UR+認證

    本次獲得UR+認證的3D機器視覺硬件產(chǎn)品主要為適用于手眼協(xié)同的小型化3D工業(yè)相機PS及FS系列,緊湊輕巧,高精度大視野,可實時采集三維空間
    的頭像 發(fā)表于 01-05 17:18 ?1008次閱讀
    讓協(xié)作更便捷,<b class='flag-5'>圖</b>漾<b class='flag-5'>3D</b>工業(yè)相機獲UR+認證

    如何搞定自動駕駛3D目標檢測

    用于自動駕駛場景下基于圖像的3D目標檢測的數(shù)據(jù)集總結(jié)。其中一些數(shù)據(jù)集包括多個任務(wù),這里只報告了3D檢測
    發(fā)表于 01-05 10:43 ?589次閱讀
    如何搞定自動駕駛<b class='flag-5'>3D</b><b class='flag-5'>目標</b><b class='flag-5'>檢測</b>!

    兩種應(yīng)用于3D對象檢測深度學(xué)習(xí)方法

    是標準 RGB 圖像與其關(guān)聯(lián)的“深度”的組合,目前由 Kinect 或英特爾實感技術(shù)使用。3D 數(shù)據(jù)可以對傳感器周圍環(huán)境進行豐富的空間表示,并可應(yīng)用于機器人、智能家居設(shè)備、無人駕駛汽車或醫(yī)學(xué)成像。
    的頭像 發(fā)表于 01-03 10:32 ?1102次閱讀
    兩種應(yīng)<b class='flag-5'>用于</b><b class='flag-5'>3D</b>對象<b class='flag-5'>檢測</b>的<b class='flag-5'>點</b><b class='flag-5'>云</b>深度學(xué)習(xí)方法