0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

三種不同的3D數(shù)據(jù)表示的基本深度學(xué)習(xí)方法

ml8z_IV_Technol ? 來(lái)源:未知 ? 作者:李倩 ? 2018-09-03 15:29 ? 次閱讀

導(dǎo)讀:我們將專注于最近的深度學(xué)習(xí)技術(shù),這些技術(shù)支持3D對(duì)象分類和語(yǔ)義分割。我們將首先回顧一些有關(guān)捕獲和表示3D數(shù)據(jù)的常用方法的背景信息。然后,我們將描述三種不同的3D數(shù)據(jù)表示的基本深度學(xué)習(xí)方法。最后,我們將描述有前途的新研究方向,并總結(jié)我們對(duì)該領(lǐng)域前進(jìn)方向的看法。

假設(shè)你正在建造一輛需要了解周圍環(huán)境的自動(dòng)駕駛汽車。為了能夠感知行人、騎自行車的人和周圍的其他車輛以便安全行駛,你將如何設(shè)計(jì)你的汽車?你可以使用相機(jī),但這似乎并不特別有效,因?yàn)橄鄼C(jī)拍出來(lái)的照片是2D的,而你只能將3D“擠壓”為從相機(jī)捕獲的2D圖像,然后你嘗試從2D圖像信息(比如到你前面的行人或汽車的距離)中恢復(fù)實(shí)際的3D環(huán)境信息。通過將3D環(huán)境壓縮到2D圖像,你將丟棄對(duì)你最重要的許多信息。嘗試將這些信息重新組合在一起很困難,即使對(duì)于最先進(jìn)的算法,也容易出錯(cuò)。

相反,最好是能夠使用3D數(shù)據(jù)擴(kuò)充你的2D世界視圖。你可以直接通過傳感器找到這些物體,而不是嘗試估算2D圖像與行人或其他車輛的距離。但現(xiàn)在感知這一部分是比較困難的。你如何在3D數(shù)據(jù)中真正識(shí)別人?如騎自行車的人和汽車等物體。傳統(tǒng)的深度學(xué)習(xí)技術(shù),如卷積神經(jīng)網(wǎng)絡(luò)(CNN),可以使這些物體在2D圖像中直接識(shí)別,需要適應(yīng)3D工作。幸運(yùn)的是,在過去的幾年里,人們已經(jīng)對(duì)3D中的感知問題進(jìn)行了相當(dāng)多的研究,我們?cè)诒疚闹械娜蝿?wù)是簡(jiǎn)要概述這項(xiàng)工作。

特別是,我們將專注于最近的深度學(xué)習(xí)技術(shù),這些技術(shù)支持3D對(duì)象分類和語(yǔ)義分割。我們將首先回顧一些有關(guān)捕獲和表示3D數(shù)據(jù)的常用方法的背景信息。然后,我們將描述三種不同的3D數(shù)據(jù)表示的基本深度學(xué)習(xí)方法。最后,我們將描述有前途的新研究方向,并總結(jié)我們對(duì)該領(lǐng)域前進(jìn)方向的看法。

我們?nèi)绾尾东@和表示3D數(shù)據(jù)?

很明顯,我們需要能夠直接在3D中運(yùn)行的計(jì)算機(jī)視覺方法,但這提出了三個(gè)明顯的挑戰(zhàn):感知,表示和理解3D數(shù)據(jù)。

感知

捕獲3D數(shù)據(jù)的過程很復(fù)雜。雖然2D相機(jī)便宜且廣泛,但3D感測(cè)通常需要專門的硬件設(shè)置。

立體視覺利用多臺(tái)攝像機(jī),通過測(cè)量被感知物體位置的變化來(lái)計(jì)算深度信息(來(lái)源:愛丁堡大學(xué))

1、立體視覺將兩個(gè)或以上攝像機(jī)相對(duì)于彼此固定在特定位置,并使用此設(shè)置捕獲場(chǎng)景的不同圖像,匹配相應(yīng)的像素,并計(jì)算每個(gè)像素在圖像之間的位置差異以計(jì)算其在3D空間中的位置。這大致是人類感知世界的方式 - 我們的眼睛捕捉到現(xiàn)實(shí)世界中兩個(gè)獨(dú)立的“圖像”,然后我們的大腦會(huì)看到物體的位置在我們的左眼和右眼之間的位置如何不同以確定其3D位置。立體視覺很有吸引力,因?yàn)樗婕暗挠布芎?jiǎn)單 - 只有兩個(gè)或以上普通相機(jī)。然而,在精度或速度很重要的應(yīng)用中,這種方法并不是很好。

RGB-D相機(jī)輸出包含顏色信息和每像素深度的四通道圖像(來(lái)源:九州大學(xué))

2、RGB-D涉及使用除了彩色圖像(“RGB”)之外還捕獲深度信息(“D”)的特殊類型的相機(jī)。具體來(lái)說,它捕獲了從普通2D相機(jī)獲得的相同類型的彩色圖像,但是,對(duì)于某些像素子集,它還會(huì)告訴你相機(jī)前面的距離。在內(nèi)部,大多數(shù)RGB-D傳感器通過“結(jié)構(gòu)光”進(jìn)行工作,該結(jié)構(gòu)光將紅外圖案投射到場(chǎng)景上并感知該圖案如何扭曲到幾何表面上,或者“飛行時(shí)間”,其觀察投射的紅外光多長(zhǎng)時(shí)間需要返回相機(jī)。你可能聽說過的一些RGB-d相機(jī)包括?微軟Kinect?和iPhone X的?面部識(shí)別?傳感器。RGB-D很棒,因?yàn)檫@些傳感器相對(duì)較小且成本較低,卻很快速且不受視覺匹配誤差的影響。然而,由于遮擋(前景中的物體阻擋投影到其后面的物體上),RGB-D相機(jī)的深度輸出通常會(huì)有許多孔,圖案感應(yīng)失敗和范圍問題(投影和感應(yīng)都變得難以遠(yuǎn)離相機(jī))。

LIDAR使用多個(gè)激光束(同心圓感應(yīng))直接感知環(huán)境的幾何結(jié)構(gòu)(來(lái)源:Giphy)

3、LiDAR涉及在物體上發(fā)射快速激光脈沖并測(cè)量它們返回傳感器所花費(fèi)的時(shí)間。這類似于我們上面描述的RGB-D相機(jī)的“飛行時(shí)間”技術(shù),但是LiDAR具有明顯更長(zhǎng)的距離,捕獲更多的點(diǎn),并且對(duì)來(lái)自其他光源的干擾更加具有魯棒性。如今,大多數(shù)3D LiDAR傳感器都是多線(最多64線)光束垂直對(duì)齊、可以快速旋轉(zhuǎn),以便在傳感器周圍的所有方向上看到。這些是大多數(shù)自動(dòng)駕駛汽車中使用的傳感器,因?yàn)樗鼈兊木取⒎秶蛨?jiān)固性,但是LiDAR傳感器的問題在于它們通常很大,很重且非常昂貴(?64光束傳感器)?大多數(shù)自動(dòng)駕駛汽車的使用成本為75,000美元)。其結(jié)果是,許多公司正在努力開發(fā)更便宜的?“固態(tài)激光雷達(dá)”?系統(tǒng),可以在3D感知,而不必旋轉(zhuǎn)。

3D表示

一旦捕獲了3D數(shù)據(jù),你需要以一種有意義的方式表示它,作為您正在構(gòu)建的處理管道的輸入。您應(yīng)該知道四種主要表示形式:

3D數(shù)據(jù)的不同表示。(a)點(diǎn)云(來(lái)源:Caltech),(b)體素網(wǎng)格(來(lái)源:IIT Kharagpur),(c)三角網(wǎng)格(來(lái)源:UW),(d)多視圖表示(來(lái)源:斯坦福)

a、點(diǎn)云只是3D空間中點(diǎn)的集合;每個(gè)點(diǎn)由(xyz)位置指定,可與一些其他屬性(如rgb顏色)一起指定。它們是捕獲LiDAR數(shù)據(jù)的原始形式,立體和RGB-D數(shù)據(jù)(由標(biāo)記為每像素深度值的圖像組成)通常在進(jìn)一步處理之前轉(zhuǎn)換為點(diǎn)云。

b、體素網(wǎng)格源自點(diǎn)云。“體素”就像3D中的像素;將體素網(wǎng)格視為量化的固定大小的點(diǎn)云。雖然點(diǎn)云可以在空間中的任何位置具有無(wú)限數(shù)量的點(diǎn)與浮點(diǎn)像素坐標(biāo),但是體素網(wǎng)格是3D網(wǎng)格,其中每個(gè)單元格或“體素”具有固定大小和離散坐標(biāo)。

c、多邊形網(wǎng)格由一組多邊形面組成,這些面具有接近幾何表面的共享頂點(diǎn)。將點(diǎn)云視為來(lái)自底層連續(xù)幾何表面的采樣3D點(diǎn)的集合;多邊形網(wǎng)格旨在以易于渲染的方式表示那些底層表面。雖然最初是為計(jì)算機(jī)圖形創(chuàng)建的,但多邊形網(wǎng)格也可用于3D視覺。有幾種方法可以從點(diǎn)云中獲得多邊形網(wǎng)格,包括Kazhdan等人的泊松曲面重構(gòu)。

d、多視圖表示是從不同的模擬視點(diǎn)(“虛擬相機(jī)”)捕獲的渲染多邊形網(wǎng)格的2D圖像的集合,以便以簡(jiǎn)單的方式傳達(dá)3D幾何。簡(jiǎn)單地從多個(gè)攝像機(jī)(如立體聲)捕獲圖像和構(gòu)建多視圖表示之間的區(qū)別在于多視圖需要實(shí)際構(gòu)建完整的3D模型并從幾個(gè)任意視點(diǎn)渲染它以完全傳達(dá)底層幾何。與上面用于存儲(chǔ)和處理3D數(shù)據(jù)的其他三種表示不同,多視圖表示通常僅用于將3D數(shù)據(jù)轉(zhuǎn)換為用于處理或可視化的簡(jiǎn)單格式。

理解

既然已經(jīng)將3D數(shù)據(jù)轉(zhuǎn)換為易于理解的格式,那么你就需要構(gòu)建一個(gè)計(jì)算機(jī)視覺管道來(lái)理解它。這里的問題是,根據(jù)數(shù)據(jù)的表示,擴(kuò)展在2D圖像(如CNN)上運(yùn)行良好的傳統(tǒng)深度學(xué)習(xí)技術(shù)可能很難處理,使得諸如對(duì)象檢測(cè)或分段之類的傳統(tǒng)任務(wù)具有挑戰(zhàn)性。

學(xué)習(xí)多視圖輸入

使用3D數(shù)據(jù)的多視圖表示是使2D深度學(xué)習(xí)技術(shù)適應(yīng)3D的最簡(jiǎn)單方法。這是將3D感知問題轉(zhuǎn)換為2D感知問題的一種聰明方式,但仍然允許您推斷對(duì)象的3D幾何結(jié)構(gòu)。使用這種想法的早期基于深度學(xué)習(xí)的工作是Su等人的多視圖CNN一種簡(jiǎn)單而有效的架構(gòu),可以從3D對(duì)象的多個(gè)2D視圖中學(xué)習(xí)特征描述符。與將單個(gè)2D圖像用于對(duì)象分類任務(wù)相比,該方法實(shí)現(xiàn)了該方法,提高了性能。這是通過將單個(gè)圖像輸入到在ImageNet上預(yù)訓(xùn)練的VGG網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)的,以便提取顯著特征,匯集這些產(chǎn)生的激活圖,并將該信息傳遞到附加的卷積層以進(jìn)行進(jìn)一步的特征學(xué)習(xí)。

多視圖CNN架構(gòu)

但是,多視圖圖像表示具有許多限制。主要問題是你并沒有真正學(xué)習(xí)3D -固定數(shù)量的2D視圖仍然只是底層3D結(jié)構(gòu)的不完美近似。因此,由于從2D圖像獲得的有限特征信息,諸如語(yǔ)義分割之類的任務(wù)(尤其是在更復(fù)雜的對(duì)象和場(chǎng)景上)的任務(wù)變得具有挑戰(zhàn)性。此外,這種可視化3D數(shù)據(jù)的形式對(duì)于計(jì)算受限的任務(wù)(如自動(dòng)駕駛和虛擬現(xiàn)實(shí))而言不可擴(kuò)展 - 請(qǐng)記住,生成多視圖表示需要渲染完整的3D模型并模擬多個(gè)任意視點(diǎn)。最終,多視圖學(xué)習(xí)面臨許多缺點(diǎn),這些缺點(diǎn)促使研究直接從3D數(shù)據(jù)學(xué)習(xí)的方法。

學(xué)習(xí)體積表示法

使用體素網(wǎng)格進(jìn)行學(xué)習(xí)可以解決多視圖表示的主要缺點(diǎn)。體素網(wǎng)格彌合了2D和3D視覺之間的差距- 它們是最接近圖像的3D表示,使得將2D深度學(xué)習(xí)概念(如卷積算子)與3D相匹配變得相對(duì)容易。Maturana和Scherer的VoxNet是第一個(gè)在給定體素網(wǎng)格輸入的情況下在對(duì)象分類任務(wù)上獲得令人信服的結(jié)果的深度學(xué)習(xí)方法之一。VoxNet對(duì)概率占用網(wǎng)格進(jìn)行操作,其中每個(gè)體素包含該體素在空間中占據(jù)的概率。該方法的益處在于其允許網(wǎng)絡(luò)區(qū)分已知自由的體素(例如,LiDAR束穿過的體素)和占用未知的體素(例如,LiDAR束撞擊的體素后面的體素)。

VoxNet架構(gòu)

VoxNet的架構(gòu)本身非常簡(jiǎn)單,由兩個(gè)卷積層,一個(gè)最大池層和兩個(gè)完全連接的層組成,用于計(jì)算輸出類別得分向量。與大多數(shù)最先進(jìn)的圖像分類網(wǎng)絡(luò)相比,該網(wǎng)絡(luò)更淺,參數(shù)更少,但它是從數(shù)百種可能的CNN架構(gòu)的隨機(jī)搜索中選擇的。由于體素網(wǎng)格與圖像非常相似,因此它們采用的實(shí)際跨步卷積和合并算子是這些算子從2D像素到3D體素的簡(jiǎn)單修改;卷積運(yùn)算符使用內(nèi)核而不是內(nèi)核在2D CNN中使用的內(nèi)核,并且池操作符考慮體素的非重疊3D塊而不是2D像素塊。

VoxNet的一個(gè)問題是該體系結(jié)構(gòu)本身并不是旋轉(zhuǎn)不變的。雖然作者合理地假設(shè)傳感器保持直立,以便體素網(wǎng)格的軸與重力方向?qū)R,關(guān)于旋轉(zhuǎn)的旋轉(zhuǎn)不能做出這樣的假設(shè)來(lái)自后面的對(duì)象仍然是同一個(gè)對(duì)象,即使體素網(wǎng)格中的幾何圖形與學(xué)習(xí)的卷積內(nèi)核非常不同地相互作用。為了解決這個(gè)問題,他們采用了簡(jiǎn)單的數(shù)據(jù)增強(qiáng)策略。在訓(xùn)練過程中,他們多次旋轉(zhuǎn)每個(gè)模型并訓(xùn)練所有副本;然后,在測(cè)試時(shí),它們將最終完全連接層的輸出匯集到輸入的幾個(gè)旋轉(zhuǎn)中。他們指出,與匯集中間卷積層的輸出(如Su等人)相比,這種方法導(dǎo)致了類似的性能,但收斂速度更快。多視圖CNN在他們的“視圖池”步驟中,通過這種方式,VoxNet通過在輸入體素網(wǎng)格的不同旋轉(zhuǎn)上共享相同的學(xué)習(xí)卷積核權(quán)重來(lái)學(xué)習(xí)旋轉(zhuǎn)不變性。

VoxNet代表了邁向真正3D學(xué)習(xí)的重要一步,但體素網(wǎng)格仍然存在許多缺點(diǎn)。首先,與點(diǎn)云相比,它們會(huì)失去分辨率,因?yàn)槿绻鼈兛拷谝黄穑瑒t表示復(fù)雜結(jié)構(gòu)的幾個(gè)不同點(diǎn)將被分類到一個(gè)體素中。同時(shí),與稀疏環(huán)境中的點(diǎn)云相比,體素網(wǎng)格可能導(dǎo)致不必要的高內(nèi)存使用,因?yàn)樗鼈冎鲃?dòng)消耗內(nèi)存來(lái)表示自由和未知空間,而點(diǎn)云僅包含已知點(diǎn)。

點(diǎn)云學(xué)習(xí)

PointNet

鑒于基于體素的方法存在這些問題,最近的工作主要集中在直接在原始點(diǎn)云上運(yùn)行的架構(gòu)上。最值得注意的是,Qi等人的 PointNet(2016)是最早提出的處理這種形式的不規(guī)則三維數(shù)據(jù)的方法之一。然而,正如作者所指出的,點(diǎn)云只是一組由xyz位置以3D表示的點(diǎn)。更具體地說,給定在點(diǎn)云中,網(wǎng)絡(luò)需要學(xué)習(xí)不變的獨(dú)特功能 輸入數(shù)據(jù)的排列,因?yàn)轲伻刖W(wǎng)絡(luò)的點(diǎn)的排序不會(huì)影響基礎(chǔ)幾何。此外,網(wǎng)絡(luò)應(yīng)該對(duì)點(diǎn)云的變換具有魯棒性 - 旋轉(zhuǎn),平移和縮放不應(yīng)影響預(yù)測(cè)。

為了確保輸入排序的不變性,PointNet背后的關(guān)鍵洞察力是使用簡(jiǎn)單的對(duì)稱函數(shù),為輸入的任何排序產(chǎn)生一致的輸出(此類函數(shù)中的示例包括加法和乘法)。在這種直覺的指導(dǎo)下,PointNet架構(gòu)背后的基本模塊(稱為PointNet Vanilla)定義如下:

這里是是一個(gè)對(duì)稱函數(shù),將輸入點(diǎn)轉(zhuǎn)換為維向量(用于對(duì)象分類)。這個(gè)功能可以近似,使得存在另一個(gè)對(duì)稱函數(shù),在等式中是一個(gè)多層感知器(MLP),它將各個(gè)輸入點(diǎn)(及其相應(yīng)的特征,如xyz位置,顏色,表面法線等)映射到更高維度的潛在空間。max-pooling操作用作對(duì)稱函數(shù),將學(xué)習(xí)的特征聚合到點(diǎn)云的全局描述符中。傳遞這個(gè)單一特征向量另一個(gè)輸出對(duì)象預(yù)測(cè)的MLP。

為了解決學(xué)習(xí)對(duì)點(diǎn)云幾何變換不變的表示的挑戰(zhàn),PointNet采用了一種稱為T-Net的迷你網(wǎng)絡(luò),它將仿射變換應(yīng)用于輸入點(diǎn)云。這個(gè)概念類似于Jaderberg等人的空間變壓器網(wǎng)絡(luò)。但更簡(jiǎn)單,因?yàn)椴恍枰x新類型的圖層。T-Net由可學(xué)習(xí)的參數(shù)組成,使PointNet能夠?qū)⑤斎朦c(diǎn)云轉(zhuǎn)換為固定的規(guī)范空間 - 確保整個(gè)網(wǎng)絡(luò)即使是最輕微的變化也能保持穩(wěn)健。

PointNet架構(gòu)

整個(gè)PointNet架構(gòu)將vanilla方法和T-Net與多個(gè)MLP層集成在一起,為層云創(chuàng)建特征表示。然而,除了對(duì)象分類之外,PointNet還支持對(duì)象和場(chǎng)景的語(yǔ)義分割。為實(shí)現(xiàn)此目的,該體系結(jié)構(gòu)將來(lái)自最大池對(duì)稱函數(shù)的全局特征向量與輸入數(shù)據(jù)通過幾個(gè)MLP后學(xué)習(xí)的每點(diǎn)特征相結(jié)合。通過連接這兩個(gè)向量,每個(gè)點(diǎn)都知道其全局語(yǔ)義和本地特征,使網(wǎng)絡(luò)能夠?qū)W習(xí)更有意義的功能,以幫助進(jìn)行分段。

使用PointNet的室內(nèi)場(chǎng)景的語(yǔ)義分割結(jié)果

PointNet ++

盡管PointNet取得了令人矚目的成果,但其中一個(gè)主要缺點(diǎn)是架構(gòu)無(wú)法捕獲點(diǎn)鄰域內(nèi)的底層局部結(jié)構(gòu)- 這一想法類似于使用CNN從圖像中增加感知域大小來(lái)提取特征。為了解決這個(gè)問題,齊等開發(fā)了PointNet ++(2017),從PointNet架構(gòu)衍生出來(lái),但也能夠在點(diǎn)云中學(xué)習(xí)本地區(qū)域的功能。這種方法背后的基礎(chǔ)是一個(gè)分層特征學(xué)習(xí)層,它有三個(gè)關(guān)鍵步驟。它(1)采樣點(diǎn)作為局部區(qū)域的質(zhì)心,(2)基于距質(zhì)心的距離對(duì)這些局部區(qū)域中的相鄰點(diǎn)進(jìn)行分組,以及(3)使用迷你PointNet對(duì)這些區(qū)域的特征進(jìn)行編碼。

逐步重復(fù)這些步驟,以便在點(diǎn)云內(nèi)的不同大小的點(diǎn)組中學(xué)習(xí)特征。通過這樣做,網(wǎng)絡(luò)可以更好地理解整個(gè)點(diǎn)云中本地點(diǎn)集群內(nèi)的底層關(guān)系 - 最終有助于提高泛化性能。這項(xiàng)工作的結(jié)果表明,PointNet ++能夠?qū)Π≒ointNet在內(nèi)的現(xiàn)有方法進(jìn)行重大改進(jìn),并在3D點(diǎn)云分析基準(zhǔn)測(cè)試(ModelNet40和ShapeNet)上實(shí)現(xiàn)了最先進(jìn)的性能。

有希望的新研究領(lǐng)域—圖CNN

目前關(guān)于處理三維數(shù)據(jù)的深度學(xué)習(xí)架構(gòu)的研究主要集中在點(diǎn)云表示上,最近的大部分工作都是從PointNet / PointNet ++擴(kuò)展思路,并從其他領(lǐng)域中汲取靈感,以進(jìn)一步提高性能。一篇這樣的論文的例子是Wang等人的動(dòng)態(tài)圖形細(xì)胞神經(jīng)網(wǎng)絡(luò)(2018),其使用基于圖的深度學(xué)習(xí)方法來(lái)改進(jìn)點(diǎn)云中的特征提取。想法是PointNet和PointNet ++無(wú)法捕獲各個(gè)點(diǎn)之間的幾何關(guān)系,因?yàn)檫@些方法需要保持不同輸入排列的不變性。然而,通過考慮一個(gè)點(diǎn)并將它作為有向圖周圍的最近鄰居,Wang等人。構(gòu)造EdgeConv,一個(gè)在數(shù)據(jù)中的點(diǎn)之間生成唯一特征的運(yùn)算符。

SPLATNet

SPLATNet架構(gòu)

另一方面,一些研究已經(jīng)遠(yuǎn)離PointNet / PointNet ++中提出的經(jīng)典特征提取方法,選擇設(shè)計(jì)一種處理點(diǎn)云的新方法。蘇等人的SPLATNet(2018)體系結(jié)構(gòu)是點(diǎn)云研究中這一新焦點(diǎn)的一個(gè)很好的例子 - 作者設(shè)計(jì)了一種新穎的體系結(jié)構(gòu)和卷積運(yùn)算符,而不是直接在點(diǎn)云上運(yùn)行。本文背后的關(guān)鍵見解是將“感受野”的概念轉(zhuǎn)化為不規(guī)則點(diǎn)云,這使得即使在稀疏區(qū)域也能保留空間信息(PointNet / PointNet ++的一個(gè)關(guān)鍵缺點(diǎn))。特別令人著迷的是,SPLATNet可以將從多視圖圖像中提取的特征投影到3D空間中,將這些2D數(shù)據(jù)與端到端可學(xué)習(xí)架構(gòu)中的原始點(diǎn)云融合在一起。使用這種2D-3D聯(lián)合學(xué)習(xí),SPLATNet實(shí)現(xiàn)了語(yǔ)義分割的最新技術(shù)。

Frustum PointNets

可視化從2D邊界框估計(jì)生成的3D平截頭體

第三個(gè)有希望的研究方向涉及擴(kuò)展我們上面描述的基本架構(gòu)構(gòu)建塊,以構(gòu)建更復(fù)雜的網(wǎng)絡(luò),用于3D等物體檢測(cè)等有用任務(wù)?;谑褂?D和3D數(shù)據(jù)的想法,Qi等人的 Frustum PointNets(2017)提出了一種融合RGB圖像和點(diǎn)云的新方法,以提高在大型3D場(chǎng)景中定位對(duì)象的效率。用于該任務(wù)的常規(guī)方法通過直接在整個(gè)點(diǎn)云上對(duì)滑動(dòng)窗口執(zhí)行分類來(lái)確定對(duì)象的可能3D邊界框,這在計(jì)算上是昂貴的并且使得實(shí)時(shí)預(yù)測(cè)變得困難。齊等人做出兩個(gè)關(guān)鍵貢獻(xiàn)。

首先,他們建議最初使用標(biāo)準(zhǔn)CNN在2D圖像上進(jìn)行物體檢測(cè),擠出對(duì)應(yīng)于檢測(cè)到的物體可能存在的點(diǎn)云區(qū)域的3D平截頭體,然后僅對(duì)此“切片”執(zhí)行搜索過程。點(diǎn)云。這顯著縮小了邊界框估計(jì)的搜索空間,降低了錯(cuò)誤檢測(cè)的可能性并大大加快了處理流水線,這對(duì)于自動(dòng)駕駛應(yīng)用至關(guān)重要。

其次,Qi等人不是在邊界框搜索過程中執(zhí)行典型的滑動(dòng)窗口分類。設(shè)計(jì)一種新穎的基于PointNet的架構(gòu),可以直接執(zhí)行實(shí)例分割(將點(diǎn)云分割成單個(gè)對(duì)象),并在一次通過中對(duì)整個(gè)3D平截頭體進(jìn)行邊界框估計(jì),使得它們的方法對(duì)于遮擋和稀疏性都快速且穩(wěn)健。最終,作為這些改進(jìn)的結(jié)果,這項(xiàng)工作在出版KITTI和SUN RGB-D 3D檢測(cè)基準(zhǔn)時(shí)的表現(xiàn)優(yōu)于所有先前的方法。

一點(diǎn)想法

在過去的5年中,3D深度學(xué)習(xí)方法已經(jīng)從使用派生(多視圖)到3D數(shù)據(jù)的原始(點(diǎn)云)表示。在此過程中,我們已經(jīng)從簡(jiǎn)單適應(yīng)2D CNN的方法轉(zhuǎn)變?yōu)?D數(shù)據(jù)(多視圖CNN甚至VoxNet),再到手工制作3D(PointNet和其他點(diǎn)云方法)的方法,大大提高了任務(wù)的性能喜歡對(duì)象分類和語(yǔ)義分割。這些結(jié)果很有希望,因?yàn)樗鼈冏C實(shí)了在3D中觀察和表現(xiàn)世界確實(shí)有價(jià)值。

然而,這一領(lǐng)域的進(jìn)步才剛剛開始。當(dāng)前的工作不僅側(cè)重于提高這些算法的準(zhǔn)確性和性能,還側(cè)重于確保穩(wěn)健性和可擴(kuò)展性。雖然目前的大部分研究都是由自主車輛應(yīng)用推動(dòng)的,但直接在點(diǎn)云上運(yùn)行的新方法將在3D醫(yī)學(xué)成像、虛擬現(xiàn)實(shí)和室內(nèi)地圖中發(fā)揮重要作用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2900

    瀏覽量

    107738
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    784

    文章

    13906

    瀏覽量

    166755
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5511

    瀏覽量

    121373

原文標(biāo)題:自動(dòng)駕駛技術(shù)之——3D感知環(huán)境的深度學(xué)習(xí)方法

文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于深度學(xué)習(xí)3D圖像處理的精密加工件外觀缺陷檢測(cè)系統(tǒng)

    的要求; 創(chuàng)新點(diǎn)深度學(xué)習(xí)應(yīng)用于3D圖像的分析處理。直接聯(lián)通維圖像數(shù)據(jù)
    發(fā)表于 03-08 13:59

    三種3D眼鏡解決方案

    介紹了三種3D眼鏡解決方案,MSP430方案,TPS65835方案,射頻穿梭3D電視眼鏡。
    發(fā)表于 09-14 10:23 ?36次下載
    <b class='flag-5'>三種</b><b class='flag-5'>3D</b>眼鏡解決方案

    深度學(xué)習(xí)三種基本結(jié)構(gòu)及原理詳解

    深度學(xué)習(xí)是計(jì)算機(jī)領(lǐng)域中目前非?;鸬脑掝},不僅在學(xué)術(shù)界有很多論文,在業(yè)界也有很多實(shí)際運(yùn)用。本篇博客主要介紹了三種基本的深度學(xué)習(xí)的架構(gòu),并對(duì)
    發(fā)表于 11-15 11:53 ?4.8w次閱讀

    融合節(jié)點(diǎn)先驗(yàn)信息的圖表示學(xué)習(xí)方法

    基于深度學(xué)習(xí)提出了融合節(jié)點(diǎn)先驗(yàn)信息的圖表示學(xué)習(xí)方法,該方法將節(jié)點(diǎn)特征作為先驗(yàn)知識(shí)。要求學(xué)習(xí)到的
    發(fā)表于 12-18 16:53 ?0次下載
    一<b class='flag-5'>種</b>融合節(jié)點(diǎn)先驗(yàn)信息的圖<b class='flag-5'>表示</b><b class='flag-5'>學(xué)習(xí)方法</b>

    模型驅(qū)動(dòng)深度學(xué)習(xí)的標(biāo)準(zhǔn)流程與學(xué)習(xí)方法解析

    模型驅(qū)動(dòng)的深度學(xué)習(xí)方法近年來(lái),深度學(xué)習(xí)在人工智能領(lǐng)域一系列困難問題上取得了突破性成功應(yīng)用。
    的頭像 發(fā)表于 01-24 11:30 ?4945次閱讀
    模型驅(qū)動(dòng)<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的標(biāo)準(zhǔn)流程與<b class='flag-5'>學(xué)習(xí)方法</b>解析

    深度解析機(jī)器學(xué)習(xí)學(xué)習(xí)方法

    在機(jī)器學(xué)習(xí)(Machine learning)領(lǐng)域。主要有類不同的學(xué)習(xí)方法:監(jiān)督學(xué)習(xí)(Supervised learning)、非監(jiān)督學(xué)習(xí)
    發(fā)表于 05-07 09:09 ?1.4w次閱讀

    三種學(xué)習(xí)模式在于深度學(xué)習(xí)的未來(lái)

    提出來(lái)。不過,總的來(lái)說,現(xiàn)代深度學(xué)習(xí)可以分為三種基本的學(xué)習(xí)范式。每一都有自己的學(xué)習(xí)方法和理念,
    的頭像 發(fā)表于 10-23 09:37 ?2211次閱讀
    這<b class='flag-5'>三種</b><b class='flag-5'>學(xué)習(xí)</b>模式在于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的未來(lái)

    深度學(xué)習(xí)三種學(xué)習(xí)模式介紹

    深度學(xué)習(xí)是一個(gè)廣闊的領(lǐng)域,它圍繞著一形態(tài)由數(shù)百萬(wàn)甚至數(shù)十億個(gè)變量決定并不斷變化的算法——神經(jīng)網(wǎng)絡(luò)。似乎每隔一天就有大量的新方法和新技術(shù)被提出來(lái)。不過,總的來(lái)說,現(xiàn)代
    的頭像 發(fā)表于 10-23 14:59 ?1.3w次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的<b class='flag-5'>三種</b><b class='flag-5'>學(xué)習(xí)</b>模式介紹

    深度學(xué)習(xí):四利用少量標(biāo)注數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別的方法

    導(dǎo)讀 近年來(lái),深度學(xué)習(xí)方法在特征抽取深度和模型精度上表現(xiàn)優(yōu)異,已經(jīng)超過了傳統(tǒng)方法,但無(wú)論是傳統(tǒng)機(jī)器學(xué)習(xí)還是
    的頭像 發(fā)表于 01-03 09:35 ?1w次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>:四<b class='flag-5'>種</b>利用少量標(biāo)注<b class='flag-5'>數(shù)據(jù)</b>進(jìn)行命名實(shí)體識(shí)別的<b class='flag-5'>方法</b>

    面向異質(zhì)信息的網(wǎng)絡(luò)表示學(xué)習(xí)方法綜述

    面向異質(zhì)信息的網(wǎng)絡(luò)表示學(xué)習(xí)方法綜述
    發(fā)表于 06-09 14:12 ?13次下載

    傳統(tǒng)CV和深度學(xué)習(xí)方法的比較

    計(jì)算機(jī)視覺的兩個(gè)方面結(jié)合起來(lái)。評(píng)論了幾種最近的混合方法論,這些方法論證明了改善計(jì)算機(jī)視覺性能和解決不適合深度學(xué)習(xí)的問題的能力。例如,將傳統(tǒng)的計(jì)算機(jī)視覺技術(shù)與
    的頭像 發(fā)表于 11-29 17:09 ?1166次閱讀

    使用深度學(xué)習(xí)方法對(duì)音樂流派進(jìn)行分類

    電子發(fā)燒友網(wǎng)站提供《使用深度學(xué)習(xí)方法對(duì)音樂流派進(jìn)行分類.zip》資料免費(fèi)下載
    發(fā)表于 02-08 10:02 ?1次下載
    使用<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)方法</b>對(duì)音樂流派進(jìn)行分類

    基于深度學(xué)習(xí)3D點(diǎn)云實(shí)例分割方法

    3D實(shí)例分割(3DIS)是3D領(lǐng)域深度學(xué)習(xí)的核心問題。給定由點(diǎn)云表示
    發(fā)表于 11-13 10:34 ?2531次閱讀
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的<b class='flag-5'>3D</b>點(diǎn)云實(shí)例分割<b class='flag-5'>方法</b>

    應(yīng)用于3D對(duì)象檢測(cè)的點(diǎn)云深度學(xué)習(xí)方法

    是標(biāo)準(zhǔn) RGB 圖像與其關(guān)聯(lián)的“深度圖”的組合,目前由 Kinect 或英特爾實(shí)感技術(shù)使用。3D 數(shù)據(jù)可以對(duì)傳感器周圍環(huán)境進(jìn)行豐富的空間表示,并可應(yīng)用于機(jī)器人、智能家居設(shè)備、無(wú)人駕駛汽
    的頭像 發(fā)表于 01-03 10:32 ?1229次閱讀
    兩<b class='flag-5'>種</b>應(yīng)用于<b class='flag-5'>3D</b>對(duì)象檢測(cè)的點(diǎn)云<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)方法</b>

    深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)方法綜述

    應(yīng)用中往往難以實(shí)現(xiàn)。因此,無(wú)監(jiān)督學(xué)習(xí)深度學(xué)習(xí)中扮演著越來(lái)越重要的角色。本文旨在綜述深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)
    的頭像 發(fā)表于 07-09 10:50 ?857次閱讀