0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

何愷明團(tuán)隊(duì)最新研究:提出一個(gè)端到端的3D目標(biāo)檢測器VoteNet

DPVg_AI_era ? 來源:lq ? 2019-04-26 09:25 ? 次閱讀

FAIR何愷明等人團(tuán)隊(duì)提出3D目標(biāo)檢測新框架VoteNet,直接處理原始數(shù)據(jù),不依賴任何2D檢測器。該模型設(shè)計(jì)簡單,模型緊湊,效率高,在兩大真實(shí)3D掃描數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的3D檢測精度。

當(dāng)前的3D目標(biāo)檢測方法受2D檢測器的影響很大。為了利用2D檢測器的架構(gòu),它們通常將3D點(diǎn)云轉(zhuǎn)換為規(guī)則的網(wǎng)格,或依賴于在2D圖像中檢測來提取3D框。很少有人嘗試直接檢測點(diǎn)云中的物體。

近日,F(xiàn)acebook AI實(shí)驗(yàn)室(FAIR)和斯坦福大學(xué)的Charles R. Qi,Or Litany,何愷明,Leonidas J. Guibas等人發(fā)表最新論文,提出一個(gè)端到端的3D目標(biāo)檢測器VoteNet。

論文地址:

https://arxiv.org/pdf/1904.09664.pdf

在這篇論文中,研究人員回歸第一原則,為點(diǎn)云數(shù)據(jù)構(gòu)建了一個(gè)盡可能通用的3D檢測pipeline。

然而,由于數(shù)據(jù)的稀疏性,直接從場景點(diǎn)預(yù)測邊界框參數(shù)時(shí)面臨一個(gè)主要挑戰(zhàn):一個(gè)3D物體的質(zhì)心可能遠(yuǎn)離任何表面點(diǎn),因此很難用一個(gè)步驟準(zhǔn)確地回歸。

為了解決這一問題,研究人員提出VoteNet,這是一個(gè)基于深度點(diǎn)集網(wǎng)絡(luò)和霍夫投票的端到端3D目標(biāo)檢測網(wǎng)絡(luò)。

該模型設(shè)計(jì)簡單,模型尺寸緊湊,而且效率高,在ScanNet和SUN RGB-D兩大真實(shí)3D掃描數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的3D檢測精度。值得注意的是,VoteNet優(yōu)于以前的方法,而且不依賴彩色圖像,使用純幾何信息。

VoteNet點(diǎn)云框架:直接處理原始數(shù)據(jù),不依賴2D檢測器

3D目標(biāo)檢測的目的是對(duì)3D場景中的對(duì)象進(jìn)行定位和識(shí)別。更具體地說,在這項(xiàng)工作中,我們的目標(biāo)是估計(jì)定向的3D邊界框以及點(diǎn)云對(duì)象的語義類。

與2D圖像相比,3D點(diǎn)云具有精確的幾何形狀和對(duì)光照變化的魯棒性。但是,點(diǎn)云是不規(guī)則的。因此,典型的CNN不太適合直接處理點(diǎn)云數(shù)據(jù)。

為了避免處理不規(guī)則點(diǎn)云,目前的3D檢測方法在很多方面都嚴(yán)重依賴基于2D的檢測器。例如,將Faster/Mask R-CNN等2D檢測框架擴(kuò)展到3D,或者將點(diǎn)云轉(zhuǎn)換為常規(guī)的2D鳥瞰圖像,然后應(yīng)用2D檢測器來定位對(duì)象。然而,這會(huì)犧牲幾何細(xì)節(jié),而這些細(xì)節(jié)在雜亂的室內(nèi)環(huán)境中可能是至關(guān)重要。

在這項(xiàng)工作中,我們提出一個(gè)直接處理原始數(shù)據(jù)、不依賴任何2D檢測器的點(diǎn)云3D檢測框架。這個(gè)檢測網(wǎng)絡(luò)稱為VoteNet,是點(diǎn)云3D深度學(xué)習(xí)模型的最新進(jìn)展,并受到用于對(duì)象檢測的廣義霍夫投票過程的啟發(fā)。

圖1:基于深度霍夫投票模型的點(diǎn)云3D目標(biāo)檢測

我們利用了PointNet++,這是一個(gè)用于點(diǎn)云學(xué)習(xí)的分層深度網(wǎng)絡(luò),以減少將點(diǎn)云轉(zhuǎn)換為規(guī)則結(jié)構(gòu)的需要。通過直接處理點(diǎn)云,不僅避免了量化過程中信息的丟失,而且通過僅對(duì)感測點(diǎn)進(jìn)行計(jì)算,利用了點(diǎn)云的稀疏性。

雖然PointNet++在對(duì)象分類和語義分割方面都很成功,但很少有研究使用這種架構(gòu)來檢測點(diǎn)云中的3D對(duì)象。

一個(gè)簡單的解決方案是遵循2D檢測器的常規(guī)做法,并執(zhí)行dense object proposal,即直接從感測點(diǎn)提出3D邊界框。然而,點(diǎn)云的固有稀疏性使得這種方法不適宜。

在圖像中,通常在目標(biāo)中心附近存在一個(gè)像素,但在點(diǎn)云中卻不是這樣。由于深度傳感器僅捕獲物體的表面,因此3D物體的中心很可能在遠(yuǎn)離任何點(diǎn)的空白空間中。因此,基于點(diǎn)的網(wǎng)絡(luò)很難在目標(biāo)中心附近聚集場景上下文。簡單地增加感知域并不能解決這個(gè)問題,因?yàn)楫?dāng)網(wǎng)絡(luò)捕獲更大的上下文時(shí),它也會(huì)導(dǎo)致包含更多的附近的對(duì)象和雜物。

為此,我們提出賦予點(diǎn)云深度網(wǎng)絡(luò)一種類似于經(jīng)典霍夫投票(Hough voting)的投票機(jī)制。通過投票,我們基本上生成了靠近對(duì)象中心的新的點(diǎn),這些點(diǎn)可以進(jìn)行分組和聚合,以生成box proposals。

與傳統(tǒng)的多獨(dú)立模塊、難以聯(lián)合優(yōu)化的霍夫投票相比,VoteNet是端到端優(yōu)化的。具體來說,在通過主干點(diǎn)云網(wǎng)絡(luò)傳遞輸入點(diǎn)云之后,我們對(duì)一組種子點(diǎn)進(jìn)行采樣,并根據(jù)它們的特征生成投票。投票的目標(biāo)是到達(dá)目標(biāo)中心。因此,投票集群出現(xiàn)在目標(biāo)中心附近,然后可以通過一個(gè)學(xué)習(xí)模塊進(jìn)行聚合,生成box proposals。其結(jié)果是一個(gè)強(qiáng)大的3D物體檢測器,它是純幾何的,可以直接應(yīng)用于點(diǎn)云。

我們在兩個(gè)具有挑戰(zhàn)性的3D目標(biāo)檢測數(shù)據(jù)集上評(píng)估了我們的方法:SUN RGB-D數(shù)據(jù)集和ScanNet數(shù)據(jù)集。在這兩個(gè)數(shù)據(jù)集上,僅使用幾何信息的VoteNet明顯優(yōu)于使用RGB和幾何甚至多視圖RGB圖像的現(xiàn)有技術(shù)。我們的研究表明,投票方案支持更有效的上下文聚合,并驗(yàn)證了當(dāng)目標(biāo)中心遠(yuǎn)離目標(biāo)表面時(shí),VoteNet能夠提供最大的改進(jìn)。

綜上所述,我們工作的貢獻(xiàn)如下:

在通過端到端可微架構(gòu)進(jìn)行深度學(xué)習(xí)的背景下,重新制定了霍夫投票,我們稱之為VoteNet。

在SUN RGB-D和ScanNet兩個(gè)數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的3D目標(biāo)檢測性能。

深入分析了投票在點(diǎn)云3D目標(biāo)檢測中的重要性。

深度霍夫投票(Deep Hough Voting)

傳統(tǒng)的霍夫投票2D檢測器包括離線和在線兩個(gè)步驟。

首先,給定一組帶有帶注釋的對(duì)象邊界框的圖像集,使用存儲(chǔ)在圖像補(bǔ)丁(或它們的特性)和它們到相應(yīng)目標(biāo)中心的偏移量之間的映射構(gòu)建一個(gè)codebook。

在推理時(shí),從圖像中選擇興趣點(diǎn)以提取周圍的補(bǔ)丁(patch)。然后將這些補(bǔ)丁與codebook中的補(bǔ)丁進(jìn)行比較,以檢索偏移量并計(jì)算投票。由于對(duì)象補(bǔ)丁傾向于一致投票,因此集群將在目標(biāo)中心附近形成。最后,通過將集群投票追溯到它們生成的補(bǔ)丁來檢索對(duì)象邊界。

我們確定這種技術(shù)非常適合我們感興趣的問題,有兩個(gè)方面:

首先,投票是針對(duì)稀疏集合設(shè)計(jì)的,因此很自然地適合于點(diǎn)云。

其次,它基于自底向上的原理,積累少量的局部信息以形成可靠的檢測。

然而,傳統(tǒng)的霍夫投票是由多個(gè)獨(dú)立的模塊組成的,將其集成到點(diǎn)云網(wǎng)絡(luò)仍然是一個(gè)開放的研究課題。為此,我們建議對(duì)不同的pipeline部分進(jìn)行以下調(diào)整:

興趣點(diǎn)(Interest points)由深度神經(jīng)網(wǎng)絡(luò)來描述和選擇,而不是依賴手工制作的特性。

投票(Vote)生成是通過網(wǎng)絡(luò)學(xué)習(xí)的,而不是使用代碼本。利用更大的感受野,可以使投票減少模糊,從而更有效。此外,還可以使用特征向量對(duì)投票位置進(jìn)行增強(qiáng),從而實(shí)現(xiàn)更好的聚合。

投票聚合(Vote aggregation)是通過可訓(xùn)練參數(shù)的點(diǎn)云處理層實(shí)現(xiàn)的。利用投票功能,網(wǎng)絡(luò)可以過濾掉低質(zhì)量的選票,并生成改進(jìn)的proposals。

Object proposals的形式是:位置、維度、方向,甚至語義類,都可以直接從聚合特征生成,從而減少了追溯投票起源的需要。

接下來,我們將描述如何將上述所有組件組合成一個(gè)名為VoteNet的端到端網(wǎng)絡(luò)。

VoteNet 的架構(gòu)

圖2描述了我們提出的端到端檢測網(wǎng)絡(luò)VoteNet的架構(gòu)。整個(gè)網(wǎng)絡(luò)可以分為兩部分:一部分處理現(xiàn)有的點(diǎn)來生成投票;另一部分處理虛擬點(diǎn)——投票——來提議和分類對(duì)象。

圖2:用于點(diǎn)云中3D目標(biāo)檢測的VoteNet架構(gòu)

給定一個(gè)包含N個(gè)點(diǎn)和XYZ坐標(biāo)的輸入點(diǎn)云,一個(gè)主干網(wǎng)絡(luò)(使用PointNet++實(shí)現(xiàn)),對(duì)這些點(diǎn)進(jìn)行采樣和學(xué)習(xí)深度特性,并輸出M個(gè)點(diǎn)的子集。這些點(diǎn)的子集被視為種子點(diǎn)。每個(gè)種子通過投票模塊獨(dú)立地生成一個(gè)投票。然后將投票分組為集群,并由proposal模塊處理,生成最終的proposal。

實(shí)驗(yàn)和結(jié)果

我們首先在兩個(gè)大型3D室內(nèi)目標(biāo)檢測基準(zhǔn)上,將我們基于霍夫投票的檢測器與之前最先進(jìn)的方法進(jìn)行比較。

然后,我們提供了分析實(shí)驗(yàn)來了解投票的重要性、不同的投票聚合方法的效果,并展示了我們的方法在緊湊性和效率方面的優(yōu)勢。

最后,我們展示了我們的檢測器的定性結(jié)果。論文附錄中提供了更多的分析和可視化。

表1:SUN RGB-D val數(shù)據(jù)集上的3D目標(biāo)檢測結(jié)果

表2:ScanNetV2 val數(shù)據(jù)集上的3D目標(biāo)檢測結(jié)果

結(jié)果如表1和表2所示。在SUN RGB-D和ScanNet兩個(gè)數(shù)據(jù)集中,VoteNet的性能都優(yōu)于所有先前的方法,分別增加了3.7和6.5 mAP。

表1表明,當(dāng)類別是訓(xùn)練樣本最多的“椅子”時(shí),我們的方法比以前的最優(yōu)方法提高11 AP。

表2表明,僅使用幾何輸入時(shí),我們的方法顯著優(yōu)于基于3D CNN的3D-SIS方法,超過了20 AP。

分析實(shí)驗(yàn):投票好還是不投票好呢?

投票好還是不投票好呢?

我們采用了一個(gè)簡單的基線網(wǎng)絡(luò),稱之為BoxNet,它直接從采樣的場景點(diǎn)提出檢測框,而不需要投票。

BoxNet具有與VoteNet相同的主干,但它不采用投票機(jī)制,而是直接從種子點(diǎn)生成框。

表3顯示,在SUN RGB-D和ScanNet上,相比BoxNet,投票機(jī)制的網(wǎng)絡(luò)性能分別提高了7 mAP和~5 mAP。

表3:VoteNet和no-vote基線的比較

那么,投票在哪些方面有幫助呢?我們認(rèn)為,由于在稀疏的3D點(diǎn)云中,現(xiàn)有的場景點(diǎn)往往遠(yuǎn)離目標(biāo)中心點(diǎn),直接提出的方案可能置信度較低或不準(zhǔn)確。相反,投票讓這些較低的置信點(diǎn)更接近,并允許通過聚合來強(qiáng)化它們的假設(shè)。

在圖3中,我們在一個(gè)典型的ScanNetV2場景中演示了這種現(xiàn)象。從圖中可以看出,與BoxNet(圖左)相比,VoteNet(圖右)提供了更廣泛的“好”種子點(diǎn)的覆蓋范圍,顯示了投票帶來的穩(wěn)健性。

圖3:投票有助于增加檢測上下文,從而增加了準(zhǔn)確檢測的可能性。

圖4:當(dāng)目標(biāo)點(diǎn)遠(yuǎn)離目標(biāo)中心的情況下,投票更有幫助

定性結(jié)果和討論

圖6和圖7分別展示了ScanNet和SUN RGB-D場景中VoteNet檢測結(jié)果的幾個(gè)代表性例子。

可以看出,場景是非常多樣化的,并提出了多種挑戰(zhàn),包括雜亂,偏見,掃描的偽像等。盡管有這些挑戰(zhàn),我們的網(wǎng)絡(luò)仍顯示出相當(dāng)強(qiáng)大的結(jié)果。

例如,圖6展示了如何在頂部場景中正確地檢測到絕大多數(shù)椅子。我們的方法能夠很好地區(qū)分左下角場景中連起來的沙發(fā)椅和沙發(fā);并預(yù)測了右下角那張不完整的、雜亂無章的桌子的完整邊界框。

圖6:ScanNetV2中3D目標(biāo)檢測的定性結(jié)果。左:VoteNet的結(jié)果,右: ground-truth

圖7:SUN RGB-D中3D目標(biāo)檢測的定性結(jié)果。(從左到右):場景的圖像,VoteNet的3D對(duì)象檢測,以及ground-truth注釋

結(jié)論

在這項(xiàng)工作中,我們介紹了VoteNet:一個(gè)簡單但強(qiáng)大的3D對(duì)象檢測模型,受到霍夫投票的啟發(fā)。

該網(wǎng)絡(luò)學(xué)習(xí)直接從點(diǎn)云向目標(biāo)質(zhì)心投票,并學(xué)會(huì)通過它們的特性和局部幾何信息來聚合投票,以生成高質(zhì)量的object proposals。

該模型僅使用3D點(diǎn)云,與之前使用深度和彩色圖像的方法相比,有了顯著的改進(jìn)。

在未來的工作中,我們將探索如何將RGB圖像納入這個(gè)檢測框架,并在下游應(yīng)用(如3D實(shí)例分割)匯總利用我們的檢測器。我們相信霍夫投票和深度學(xué)習(xí)的協(xié)同作用可以推廣到更多的應(yīng)用領(lǐng)域,如6D姿態(tài)估計(jì)、基于模板的檢測等,并期待在這方面看到更多的研究。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 檢測器
    +關(guān)注

    關(guān)注

    1

    文章

    868

    瀏覽量

    47738
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24766
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5511

    瀏覽量

    121362

原文標(biāo)題:何愷明團(tuán)隊(duì)最新研究:3D目標(biāo)檢測新框架VoteNet,兩大數(shù)據(jù)集刷新最高精度

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于ToF的3D活體檢測算法研究

    人臉。這是由于目前基于RGB等2D空間的主流活體檢測方案未考慮光照、遮擋等干擾因素對(duì)于檢測的影響,而且存在計(jì)算量大的缺點(diǎn)。而數(shù)跡智能團(tuán)隊(duì)研發(fā)的3D
    發(fā)表于 01-06 07:30

    極限檢測器電路圖

    極限檢測器電路圖
    發(fā)表于 03-28 09:22 ?613次閱讀
    雙<b class='flag-5'>端</b>極限<b class='flag-5'>檢測器</b>電路圖

    極限檢測器原理圖

    極限檢測器原理圖
    發(fā)表于 03-28 09:22 ?673次閱讀
    雙<b class='flag-5'>端</b>極限<b class='flag-5'>檢測器</b>原理圖

    檢測器,光檢測器是什么?

    檢測器,光檢測器是什么?  光信號(hào)經(jīng)過光纖傳輸?shù)竭_(dá)接收后,在接收個(gè)接收光信號(hào)的元件。
    發(fā)表于 02-27 17:44 ?1067次閱讀

    谷歌開發(fā)pipeline,在移動(dòng)設(shè)備上可實(shí)時(shí)計(jì)算3D目標(biāo)檢測

    3月13日消息,谷歌宣布推出 MediaPipe Objectron,這是種適用于日常物體的移動(dòng)實(shí)時(shí)3D目標(biāo)
    的頭像 發(fā)表于 03-13 15:41 ?2800次閱讀

    自動(dòng)駕駛檢測器可同時(shí)實(shí)現(xiàn)3D檢測精讀和速度的提升

    3月19日,阿里巴巴達(dá)摩院宣布近日有論文入選計(jì)算機(jī)視覺頂會(huì)CVPR 2020。論文提出個(gè)通用、高性能的自動(dòng)駕駛檢測器,可兼顧
    的頭像 發(fā)表于 03-20 13:40 ?2587次閱讀

    華為發(fā)布“5G+8K”3D VR解決方案

    [中國,上海,2021年4月8日] 華為發(fā)布面向5.5G上行超寬帶(UCBC)演進(jìn)的“5G+8K”3D VR解決方案,有效突破傳統(tǒng)3D
    的頭像 發(fā)表于 04-13 11:26 ?2370次閱讀

    3D-AI多目標(biāo)檢測器有效幫助規(guī)劃道路和城市未來

    3D-AI多目標(biāo)檢測器將邊緣計(jì)算能力集成在傳感內(nèi)部,通過3D-AI多目標(biāo)
    的頭像 發(fā)表于 07-21 11:51 ?1604次閱讀

    以裸眼3D技術(shù)助力數(shù)字經(jīng)濟(jì)

    這是備受歷代皇帝和民間喜愛的神獸——「甪」,也是洲創(chuàng)意團(tuán)隊(duì)透過藝術(shù)與科技的當(dāng)代視角,以裸眼3D技術(shù)詮釋的傳統(tǒng)文化中神獸與文物的形象,成功助力《甪
    發(fā)表于 09-05 10:28 ?803次閱讀

    如何利用車載環(huán)視相機(jī)采集的圖像實(shí)現(xiàn)精準(zhǔn)的3D目標(biāo)檢測

    如何利用車載環(huán)視相機(jī)采集的多張圖像實(shí)現(xiàn)精準(zhǔn)的 3D 目標(biāo)檢測,是自動(dòng)駕駛感知領(lǐng)域的重要課題之。
    發(fā)表于 07-26 14:11 ?721次閱讀
    如何利用車載環(huán)視相機(jī)采集<b class='flag-5'>到</b>的圖像實(shí)現(xiàn)精準(zhǔn)的<b class='flag-5'>3D</b><b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測</b>

    基于BEV的視覺3D目標(biāo)檢測器

    根據(jù)我們的實(shí)驗(yàn)分析,我們認(rèn)為實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵在于提升檢測器在 BEV 空間和 2D 空間的適應(yīng)性。這種適應(yīng)性是針對(duì) query 而言的,即對(duì)于不同的 query,檢測器要能以不同的方
    發(fā)表于 09-16 10:09 ?814次閱讀
    基于BEV的視覺<b class='flag-5'>3D</b><b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測器</b>

    CCV 2023 | SparseBEV:高性能、全稀疏的純視覺3D目標(biāo)檢測器

    本文介紹在3D 目標(biāo)檢測領(lǐng)域的新工作:SparseBEV。我們所處的 3D 世界是稀疏的,因此稀疏 3D
    的頭像 發(fā)表于 09-19 10:00 ?1050次閱讀
    CCV 2023 | SparseBEV:高性能、全稀疏的純視覺<b class='flag-5'>3D</b><b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測器</b>

    如何搞定自動(dòng)駕駛3D目標(biāo)檢測!

    可用于自動(dòng)駕駛場景下基于圖像的3D目標(biāo)檢測的數(shù)據(jù)集總結(jié)。其中些數(shù)據(jù)集包括多個(gè)任務(wù),這里只報(bào)告了3D檢測
    發(fā)表于 01-05 10:43 ?615次閱讀
    如何搞定自動(dòng)駕駛<b class='flag-5'>3D</b><b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測</b>!

    Sparse4D-v3:稀疏感知的性能優(yōu)化及拓展

    上限,解決更多的corner case,讓系統(tǒng)更加魯棒。因此,在Sparse4D-v3中,我們主要做了兩部分工作,其是進(jìn)步提升模型的檢測性能,另
    的頭像 發(fā)表于 01-23 10:20 ?1471次閱讀
    Sparse4<b class='flag-5'>D-v3</b>:稀疏感知的性能優(yōu)化及<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>拓展

    Nullmax提出多相機(jī)3D目標(biāo)檢測新方法QAF2D

    今天上午,計(jì)算機(jī)視覺領(lǐng)域頂會(huì)CVPR公布了最終的論文接收結(jié)果,Nullmax感知部門的3D目標(biāo)檢測研究《Enhancing 3D Objec
    的頭像 發(fā)表于 02-27 16:38 ?1182次閱讀
    Nullmax<b class='flag-5'>提出</b>多相機(jī)<b class='flag-5'>3D</b><b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測</b>新方法QAF2<b class='flag-5'>D</b>