0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

兩種應用于3D對象檢測的點云深度學習方法

新機器視覺 ? 來源:新機器視覺 ? 2024-01-03 10:32 ? 次閱讀

隨著激光雷達傳感器(“光檢測和測距”的縮寫,有時稱為“激光掃描”,現(xiàn)在在一些最新iPhone 上可用)或 RGB-D 攝像頭(一種 RGB-D 攝像頭)的興起,3D 數(shù)據(jù)變得越來越廣泛。D 圖像是標準 RGB 圖像與其關聯(lián)的“深度圖”的組合,目前由 Kinect 或英特爾實感技術使用。3D 數(shù)據(jù)可以對傳感器周圍環(huán)境進行豐富的空間表示,并可應用于機器人、智能家居設備、無人駕駛汽車或醫(yī)學成像

3D 數(shù)據(jù)可以采用多種格式:RGB-D 圖像、多邊形網(wǎng)格、體素、點云。點云只是一組無序的坐標三元組 (x, y, z),這種格式已經(jīng)變得非常流行,因為它保留了所有原始 3D 信息,不使用任何離散化或 2D 投影。從根本上講,基于 2D 的方法無法提供準確的 3D 位置信息,這對于機器人或自動駕駛等許多關鍵應用來說是個問題。

因此,直接在點云輸入上應用機器學習技術非常有吸引力:它可以避免執(zhí)行 2D 投影或體素化時發(fā)生的幾何信息丟失。由于 3D 數(shù)據(jù)固有的豐富特征表示,點云深度學習在過去 5 年中引起了廣泛關注。

但也存在一些挑戰(zhàn):輸入的高維度和非結構化性質,以及可用數(shù)據(jù)集的小規(guī)模及其噪聲水平。此外,點云本質上是被遮擋和稀疏的:3D 對象的某些部分對傳感器來說只是隱藏的,或者信號可能會丟失或被阻擋。除此之外,點云本質上是不規(guī)則的,使得 3D 卷積與 2D 情況非常不同(見下圖)。

受 ML6 客戶的幾個用例的啟發(fā),我們研究了兩種應用于 3D 對象檢測的點云深度學習方法(VoteNet 和 3DETR)。兩者都是由 Facebook 研究團隊發(fā)明的(請參閱下面的鏈接部分中 Facebook 研究文章的鏈接[5]、[6]和[7])。該模型的目標是使用點云(從 RGB-D 圖像預處理)并估計定向 3D 邊界框以及對象的語義類別。

1、數(shù)據(jù)預處理

我們一直使用的主要數(shù)據(jù)集是 SUN RGB-D 數(shù)據(jù)集。它包括室內場景(臥室、家具店、辦公室、教室、浴室、實驗室、會議室等)的 10,335 個 RGB-D 圖像。這些場景使用圍繞 37 種對象的 64,595 個定向 3D 邊界框進行注釋,其中包括椅子、桌子、枕頭、沙發(fā)……(請參閱鏈接[1]、[2]、[3]和[4]鏈接部分詳細說明數(shù)據(jù)集的各種來源以及用于創(chuàng)建數(shù)據(jù)集的方法)。在訓練期間通過應用點云的隨機子采樣、翻轉、旋轉和隨機縮放來使用數(shù)據(jù)增強。

RGB-D 圖像到濁點的轉換是通過圖像中給定坐標處的 2D 坐標和深度值的線性變換來完成的,同時考慮到相機的固有特性。基本的三角學考慮導致了這種線性變換的數(shù)學公式(有關更詳細的解釋,請參閱[8])。下圖(由 yodayoda Inc. 在[8]中提供)說明了該操作。預處理可以使用 Matlab 函數(shù)來完成,例如 Facebook 團隊的代碼(需要對代碼進行一些更改才能使其與免費版本 Octave 一起使用,這會顯著減慢預處理速度)或使用 Open3D 開源庫(請參閱 鏈接部分鏈接[9]到圖書館的主頁)。

2、Pointnet++ 和 VoteNet

第一種方法 VoteNet ([5]) 使用 Pointnet++ ([7]) 作為主干(均來自同一作者 Charles R. Qi)。

Pointnet++ 將點云作為輸入并輸出輸入云的子集,但每個點都有更多特征,并且現(xiàn)在豐富了有關局部幾何圖案的上下文。這與卷積網(wǎng)絡類似,只是輸入云以數(shù)據(jù)相關的方式進行子采樣,特定點周圍的鄰域由度量距離定義,并且該鄰域中的點數(shù)是可變的。下圖(摘自[7])說明了 Pointnet++ 架構。

df971f00-a9ca-11ee-8b88-92fbcf53809c.png

圖片

該圖像上的 Pointnet 層創(chuàng)建每個局部區(qū)域的抽象(由固定半徑定義)。每個局部區(qū)域都被轉換為由其質心和豐富特征組成的向量,從而形成鄰域的抽象表示。在我們的特定情況下,原始輸入點云由可變數(shù)量(20,000 或 40,000)的三元組(x、y、z)組成,Pointnet++ 主干網(wǎng)的輸出是一組 1,024 個維度為 3+256 的點。主干中的每個 Pointnet 層只是一個多層感知器(每個 1 或 2 個隱藏層)。

用于 3D 對象檢測的 VoteNet 方法使用 Pointnet++ 的輸出并應用“深度霍夫投票”。下圖說明了該方法(摘自[5])。

dfa90364-a9ca-11ee-8b88-92fbcf53809c.png

圖片

主干輸出的每個點(具有豐富的特征)都被輸入到共享的多層感知器中以生成投票(“投票模塊”):該投票神經(jīng)網(wǎng)絡輸出點(其輸入)和點的質心之間的位移三元組。它所屬的對象(如果有)。它經(jīng)過訓練,可以最大限度地減少位移的范數(shù),并添加一些有助于投票聚合的額外功能。

如上圖所示,投票被聚集。每個簇都被饋送到“提議和分類模塊”(實際上是 2 個多層感知器),該模塊輸出一個預測向量,包括:客觀性得分、邊界框參數(shù)和語義分類得分。這三個元素中的每一個都構成一個損失函數(shù)(如果我們添加上面提到的投票回歸損失,那么總共 4 個元素):對象交叉熵損失、邊界框估計損失和類別預測損失。

3、3DETR

3DETR 方法(在[6]中描述)是一種純粹基于Transformer的方法,與普通transformer架構相比幾乎沒有任何修改,這是非常了不起的。3DETR 架構如下圖所示(摘自[6])。

dfc38612-a9ca-11ee-8b88-92fbcf53809c.png

圖片

Transformer 編碼器從子采樣+集合聚合層接收輸入,就像上面描述的 Pointnet++ 主干一樣(除了在這種情況下該操作僅應用一次,而不是在 Pointnet++ 中應用多次)。然后,Transformer 編碼器應用多層自注意力和非線性投影(在我們的例子中,有 3 個多頭注意力層,每個層有 8 個頭)。不需要位置嵌入,因為該信息已包含在輸入中。自注意力機制是排列不變的,并且允許表示長范圍依賴。話雖這么說,編碼器中的自注意力層可以使用掩碼進行修改,以便關注局部模式而不是全局模式。

解碼器由多個transformer塊組成(在我們的例子中為 8 個)。它接收查詢并預測 3D 邊界框。查詢是通過從輸入云中采樣一些點(在我們的例子中為 128 個)并將它們輸入到位置嵌入層和隨后的多層感知器中來生成的。

4、實戰(zhàn)案例

這是來自 SUN RGB-D 數(shù)據(jù)集的 RGB-D 圖像的示例。

然后圖像被預處理成 20,000 或 80,000 個點的點云。你可以使用 MeshLab 可視化各種 3D 數(shù)據(jù),包括點云。

VoteNet 或 3DETR 算法現(xiàn)在可以預測邊界框(和對象類)。

5、性能表現(xiàn)

為了評估 3D 對象檢測技術,最廣泛使用的指標是平均精度 (mAP):平均精度 (AP) 是精度-召回率曲線下的面積,平均精度 (mAP) 是所有對象的平均值 類。IoU(交并集)閾值固定為 0.25 或 0.5,為我們提供 AP25 或 AP50 指標。這控制了預測邊界框和真實邊界框之間所需的重疊。

我們在 Google Cloud Platform 虛擬機上的 SUN RGB-D 訓練集上對 VoteNet 模型進行了 180 個 epoch 的訓練(如[5]的作者所建議),并在測試集上獲得了 57% 的 AP25(如[5])。我們的 VoteNet 模型大小合理,具有大約 100 萬個可訓練參數(shù)。

至于3DETR模型,該模型更大,有700萬個可訓練參數(shù),需要訓練360個epoch才能在SUN RGB-D數(shù)據(jù)集上達到57%的AP25。這需要幾天的訓練。幸運的是,[6]的作者公開了一個在 SUN RGB-D 上預訓練了 1080 個 epoch 的模型。我們對其進行了測試,得到了與 VoteNet 相同的 AP25,即 57%。編碼器中帶有屏蔽自注意力的 3DETR 模型版本也可用,并且性能稍好一些。應該指出的是,根據(jù)[6]的作者的說法,性能增益在另一個數(shù)據(jù)集上更為重要(ScanNetV2 請參閱下面該數(shù)據(jù)集的更多信息)。

6、遷移學習

一個重要的考慮因素是將預訓練模型(例如[5]和[6]的作者提供的模型)轉移到我們客戶的數(shù)據(jù)上的能力。這在 3D 對象檢測的情況下尤其重要,因為數(shù)據(jù)難以注釋、被遮擋且有噪聲。

我們測試了在 ScanNetV2 數(shù)據(jù)集上訓練的 VoteNet 到 SUN RGB-D 數(shù)據(jù)集的可遷移性。ScanNetV2(詳細信息請參閱[10])是一個由室內場景重建的 1,200 個 3D 網(wǎng)格的帶注釋數(shù)據(jù)集。它確實包括 18 個對象類別 雖然 SUN RGB-D 和 ScanNetV2 都屬于相似的室內場景領域,但它們實際上完全不同:ScanNetV2 中的場景覆蓋更大的表面、更完整并包含更多對象。對 ScanNetV2 數(shù)據(jù)集中的頂點進行采樣以創(chuàng)建輸入點云。

我們使用在 ScanNetV2 上預訓練了 180 個 epoch 的 VoteNet 模型。我們盡可能保留了這個模型的內容:主干模塊、投票模塊以及除最后一個輸出層之外的所有提案和分類模塊。有趣的是,該模型僅在 SUN RGB-D 上進行了 30 個 epoch 的微調,就達到了與在 SUN RGB-D 上從頭開始訓練 180 個 epoch 的相同 VoteNet 模型相同的性能。

這是一個令人鼓舞的結果,讓我們相信我們的預訓練模型可以輕松地從其他類型的室內域轉移到 ML6 客戶端的數(shù)據(jù),而不需要大型注釋數(shù)據(jù)集。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 傳感器
    +關注

    關注

    2551

    文章

    51099

    瀏覽量

    753606
  • 攝像頭
    +關注

    關注

    60

    文章

    4841

    瀏覽量

    95703
  • 激光雷達
    +關注

    關注

    968

    文章

    3972

    瀏覽量

    189929
  • 深度學習
    +關注

    關注

    73

    文章

    5503

    瀏覽量

    121169

原文標題:點云目標識別深度網(wǎng)絡

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于深度學習方法在處理3D進行缺陷分類應用

    背景部分介紹了3D應用領域中公開可訪問的數(shù)據(jù)集的重要性,這些數(shù)據(jù)集對于分析和比較各種模型至關重要。研究人員專門設計了各種數(shù)據(jù)集,包括用于3D
    的頭像 發(fā)表于 02-22 16:16 ?1161次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的<b class='flag-5'>方法</b>在處理<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>進行缺陷分類應用

    兩種建立元件3D圖形的方法

    使用 Altium Desinger繪制的PCB封裝默認情況下為平面,也就是將其切換到 3D 視圖時,只能看到的是封裝的形狀,并不是元件的外觀,這里給大家介紹兩種建立元件3D圖形的方法
    發(fā)表于 07-12 07:37

    基于深度學習3D圖像處理的精密加工件外觀缺陷檢測系統(tǒng)

    的要求; 創(chuàng)新三:深度學習應用于3D圖像的分析處理。直接聯(lián)通三維圖像數(shù)據(jù)與深度
    發(fā)表于 03-08 13:59

    3D技術介紹及其與VR體驗的關系

    ;x>nkedIn上發(fā)表了一篇跟澳大利亞科技公司優(yōu)立(Euclideon)所使用的數(shù)據(jù)有關的文章,并在業(yè)內引起了一番討論。 1. 的問題
    發(fā)表于 09-15 09:28 ?20次下載

    問題的介紹及3D技術在VR中的應用

    1. 的問題 是由3D掃描硬件收集的數(shù)據(jù),如FARO的Focus 3D激光掃描儀和Shi
    發(fā)表于 09-27 15:27 ?17次下載

    基于圖卷積的層級圖網(wǎng)絡用于基于3D目標檢測

    論文:A Hierarchical Graph Network for 3D Object Detection on Point Clouds 由于大多數(shù)現(xiàn)有的對象
    的頭像 發(fā)表于 06-21 12:15 ?6213次閱讀
    基于圖卷積的層級圖網(wǎng)絡<b class='flag-5'>用于</b>基于<b class='flag-5'>點</b><b class='flag-5'>云</b>的<b class='flag-5'>3D</b>目標<b class='flag-5'>檢測</b>

    3D 的無監(jiān)督膠囊網(wǎng)絡 多任務上實現(xiàn)SOTA

    這是一3D 提出的無監(jiān)督膠囊架構,并且在 3D
    的頭像 發(fā)表于 01-02 09:39 ?2086次閱讀

    基于層級圖網(wǎng)絡的圖卷積,用完成3D目標檢測

    由于大多數(shù)現(xiàn)有的對象檢測方法不能充分適應點的特征(例如稀疏性),所以一些關鍵的語義信息(如
    的頭像 發(fā)表于 12-24 15:25 ?654次閱讀

    如何在LiDAR上進行3D對象檢測

    該項目將借助KV260上的PYNQ-DPU覆蓋,從而能夠使我們在LiDAR上進行3D對象檢測比以往任何時候都更加高效!
    的頭像 發(fā)表于 04-26 17:41 ?2183次閱讀
    如何在LiDAR<b class='flag-5'>點</b><b class='flag-5'>云</b>上進行<b class='flag-5'>3D</b><b class='flag-5'>對象</b><b class='flag-5'>檢測</b>

    何為3D語義分割

    融合標注使用的3D標注工具仍以3D立體框為主,但在3D數(shù)據(jù)以外,還需要使用2D標注工具在
    的頭像 發(fā)表于 07-21 15:52 ?8681次閱讀

    用于處理三維深度學習方法的分析

    3D學習( Point Clouds)作為近年來的研究熱點之一,受到了廣泛關注,每年在各大會議上都有大量的相關文章發(fā)表。
    的頭像 發(fā)表于 11-02 15:07 ?1085次閱讀

    設計時空自監(jiān)督學習框架來學習3D云表示

    1)方法優(yōu)于現(xiàn)有技術。通過使用 STRL 進行預訓練并將學習到的模型應用于下游任務,它在 ModelNet40上優(yōu)于最先進的無監(jiān)督方法,并通過線性評估達到 90.9% 的
    的頭像 發(fā)表于 12-06 10:23 ?820次閱讀

    有效將3D分割成平面組件的多分辨率方法

    在實驗中,將改方法與使用 SegComp 數(shù)據(jù)庫的最先進方法進行了比較。實驗結果表明,我們以高幀率和高質量處理 3D 激光和深度傳感器(例如 Kinect)的
    的頭像 發(fā)表于 01-09 11:28 ?1066次閱讀

    基于深度學習分割的方法介紹

      摘 要:分割是數(shù)據(jù)理解中的一個關鍵技術,但傳統(tǒng)算法無法進行實時語義分割。近年來深度學習
    發(fā)表于 07-20 15:23 ?3次下載

    基于深度學習3D實例分割方法

    3D實例分割(3DIS)是3D領域深度學習的核心問題。給定由云表示的
    發(fā)表于 11-13 10:34 ?2353次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學習</b>的<b class='flag-5'>3D</b><b class='flag-5'>點</b><b class='flag-5'>云</b>實例分割<b class='flag-5'>方法</b>