0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

3D場(chǎng)景感知所需要的技術(shù)以及未來(lái)發(fā)展的方向

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-08-31 09:59 ? 次閱讀

編者按:本文作者M(jìn)ihir Garimella和Prathik Naidu是斯坦福大學(xué)大二的學(xué)生,他們?cè)谶@篇文章中總結(jié)了對(duì)3D場(chǎng)景感知所需要的技術(shù)以及未來(lái)發(fā)展的方向。

假設(shè)你要打造一臺(tái)自動(dòng)駕駛汽車(chē),它需要了解周?chē)闆r。你會(huì)用什么方法讓車(chē)子感知周?chē)男腥?、自行?chē)和其他障礙物呢?也許你會(huì)想到用照相機(jī),但是這可能不會(huì)很高效:你需要對(duì)3D環(huán)境進(jìn)行拍攝,然后將其壓縮成2D圖像。之后,模型會(huì)重建你需要的3D圖像信息(例如車(chē)輛距前方行人的距離)。將3D圖像壓縮的過(guò)程會(huì)丟掉很多重要信息,然而之后想再重新拼湊這些信息是很困難的,即使是最先進(jìn)的算法也會(huì)出錯(cuò)。

所以,理想情況下你應(yīng)該可以用3D數(shù)據(jù)對(duì)2D景觀進(jìn)行優(yōu)化,可以直接用傳感器對(duì)前方障礙進(jìn)行定位,而不是用2D圖像估計(jì)行人或其他交通工具與你的距離。但是這時(shí)又會(huì)有新的問(wèn)題:我們?cè)趺床拍茉?D數(shù)據(jù)中識(shí)別目標(biāo)物體呢?例如行人、自行車(chē)、汽車(chē)等等。傳統(tǒng)的CNN會(huì)直接在2D圖像中辨認(rèn)不同的物體,然后再在3D中調(diào)整。3D感知問(wèn)題已經(jīng)研究了很久,這篇文章就是對(duì)這一工作進(jìn)行大致回顧。

特別的,我們將重點(diǎn)關(guān)注最近能夠?qū)崿F(xiàn)3D物體的分類和語(yǔ)義分割的深度學(xué)習(xí)技術(shù)。我們會(huì)從捕捉、表示3D數(shù)據(jù)的常用方法講起,之后會(huì)展示三種基本的用于表示3D數(shù)據(jù)的深度學(xué)習(xí)方法。最后,我們會(huì)思考未來(lái)研究的新方向。

如何捕捉并表示3D數(shù)據(jù)?

很明顯,我們需要能直接在3D數(shù)據(jù)上操作的計(jì)算機(jī)視覺(jué)方法,但是這里有三大難題:感知、表示、理解3D數(shù)據(jù)。

感知

捕捉3D數(shù)據(jù)的過(guò)程很復(fù)雜,雖然2D相機(jī)價(jià)格便宜、使用廣泛,但是要進(jìn)行3D感知還需要特殊的硬件設(shè)備。

立體視覺(jué)利用多相機(jī)在不同方位進(jìn)行拍攝來(lái)計(jì)算深度信息

1. 在兩個(gè)或兩個(gè)以上的位置放置相機(jī),捕捉不同場(chǎng)景下的目標(biāo)圖像,然后把對(duì)應(yīng)的像素進(jìn)行匹配,計(jì)算不同照片中每個(gè)像素的位置有何不同。這也是人類看世界的方法——我們的眼睛捕捉兩個(gè)不同的畫(huà)面,然后大腦根據(jù)左右眼不同角度確定3D場(chǎng)景。立體視覺(jué)只需要幾個(gè)普通相機(jī),設(shè)備很簡(jiǎn)單,因此吸引了很多使用者。但是,這種方法在進(jìn)行精準(zhǔn)測(cè)量或計(jì)算速度時(shí)表現(xiàn)得就不那么好了,因?yàn)橛靡曈X(jué)細(xì)節(jié)對(duì)圖像之間相對(duì)的點(diǎn)進(jìn)行匹配,不僅需要大量計(jì)算力,還會(huì)造成很多錯(cuò)誤。

RGB-D相機(jī)可以輸出一個(gè)有四個(gè)通道的圖像,其中包含了顏色信息和像素深度

2. RGB-D是一種特殊的相機(jī),它不僅能捕捉深度信息(D)還能捕捉圖像顏色(RGB)。而且它還能捕捉到和2D相機(jī)一樣的彩色圖像。大多數(shù)RGB-D傳感器是通過(guò)“結(jié)構(gòu)光”或“飛行時(shí)間”進(jìn)行工作。你可能聽(tīng)過(guò)微軟的Kinect或iPhone X的Face ID傳感器中包含RGB-D相機(jī),它們很強(qiáng)大,因?yàn)檫@些傳感器體積小、成本低、速度快。但是,RGB-D相機(jī)經(jīng)常會(huì)在深度輸出上出現(xiàn)很多洞,因?yàn)榍胺奖尘暗恼系K物遮擋或者模式識(shí)別的故障等問(wèn)題。

LIDAR運(yùn)用幾束激光直接感知環(huán)境的幾何結(jié)構(gòu)

3.LIDAR是對(duì)目標(biāo)物體發(fā)射高速激光脈沖,并計(jì)算它們返回傳感器的時(shí)間,類似RGB-D相機(jī)的“飛行時(shí)間”技術(shù),但是LIDAR的探測(cè)距離可以更長(zhǎng),能捕捉更多點(diǎn),不容易受其他光源的干擾。目前大多數(shù)自動(dòng)駕駛汽車(chē)使用的也是這類傳感器,因?yàn)樗鼈兙_度高、范圍廣并且穩(wěn)定。但是LIDAR通常體積很大、價(jià)格昂貴,許多公司正在開(kāi)發(fā)更便宜的LIDAR系統(tǒng)。

3D表示

獲取數(shù)據(jù)后,你需要用合適的方法表示出來(lái)。這里有四種主流的表示方法:

從左至右:點(diǎn)云;voxel網(wǎng)格;多邊形網(wǎng)格;多角度表示

1.點(diǎn)云是在3D空間中點(diǎn)的集合,每個(gè)點(diǎn)都由一個(gè)坐標(biāo)(xyz)表示,同時(shí)會(huì)有其他特征(例如RGB顏色)。它們都是捕捉到的LIDAR數(shù)據(jù)的原始形式,通常在進(jìn)行下一步處理之前,立體和RGB-D數(shù)據(jù)會(huì)轉(zhuǎn)化成點(diǎn)云形式。

2.Voxel網(wǎng)格由點(diǎn)云演化而來(lái)。Voxel就像3D中的像素,我們可以將voxel網(wǎng)格想象成量化的、固定尺寸的點(diǎn)云。盡管點(diǎn)云可以在空間中的任何位置具有無(wú)線數(shù)量的點(diǎn)與浮點(diǎn)像素坐標(biāo),但是voxel網(wǎng)格是3D網(wǎng)格,其中的每個(gè)體素(voxel)都有固定的尺寸和獨(dú)立的坐標(biāo)。

3.多邊形網(wǎng)格是一組有共同頂點(diǎn)的多變形表明組成的一個(gè)近似幾何形狀的表面。將點(diǎn)云想象成從連續(xù)集合表面采集的3D點(diǎn)的集合,多邊網(wǎng)格的目的是用一種容易渲染的方法表示出這些表面。雖然最初是為了計(jì)算機(jī)圖形而創(chuàng)建的,多邊形網(wǎng)格也可以用于3D視覺(jué)。從點(diǎn)云中獲取多邊形網(wǎng)格的方法有很多,可以參考Kazhdan等人的Poisson surface reconstruction(地址:http://hhoppe.com/poissonrecon.pdf "Poisson surface reconstruction")。

4.多角度表示是從多個(gè)角度捕捉到的、經(jīng)過(guò)渲染的多邊形網(wǎng)格的2D圖像集合。僅從多個(gè)相機(jī)中捕捉不同圖像和創(chuàng)建多角度的表示之間的區(qū)別在于,多角度需要搭建一個(gè)完整的3D模型,并且從多個(gè)任意角度進(jìn)行渲染,以完全傳遞潛在的幾何圖像。與上面其他三種表示不同,多角度表示通常將3D數(shù)據(jù)轉(zhuǎn)化成更簡(jiǎn)單的形式用于處理可視化。

理解

現(xiàn)在,你已經(jīng)將3D數(shù)據(jù)轉(zhuǎn)化成可讀形式了,你需要?jiǎng)?chuàng)建一個(gè)計(jì)算機(jī)視覺(jué)管道理解它。這里的問(wèn)題是,擴(kuò)展傳統(tǒng)的深度學(xué)習(xí)技術(shù)到3D數(shù)據(jù)上會(huì)很棘手。

通過(guò)多角度輸入學(xué)習(xí)

多角度表示是最簡(jiǎn)單的將2D深度學(xué)習(xí)應(yīng)用在3D上。將3D感知問(wèn)題轉(zhuǎn)換成2D感知是很聰明的方法,但是它仍然需要你推理目標(biāo)物體的3D幾何圖形。早期運(yùn)用這一方法的深度學(xué)習(xí)研究是Su等人的多角度CNN,這是一種簡(jiǎn)介但是高效的網(wǎng)絡(luò)結(jié)構(gòu),可以從多個(gè)2D圖像中學(xué)習(xí)特征描述。運(yùn)用了這種方法,結(jié)果比單獨(dú)使用2D圖像要好。將單獨(dú)的圖像輸入到經(jīng)過(guò)訓(xùn)練的VGG網(wǎng)絡(luò)中,提取最重要的特征,對(duì)這些激活映射進(jìn)行池化,然后將信息傳遞到其他卷積層中進(jìn)行特征學(xué)習(xí)。

不過(guò),多角度圖像表示有一些限制。主要問(wèn)題是我們并不是真正學(xué)習(xí)的是3D,一定量的2D角度圖像并不能真正地估計(jì)3D結(jié)構(gòu)。所以,一些類似語(yǔ)義分割的任務(wù),尤其是復(fù)雜的目標(biāo)和場(chǎng)景,都會(huì)受到特征信息的限制。另外,這種形式的3D數(shù)據(jù)可視化是不可擴(kuò)展的,在計(jì)算上會(huì)受到限制。

用容積表示學(xué)習(xí)

通過(guò)voxel網(wǎng)格學(xué)習(xí)解決了多角度表示的主要缺點(diǎn)。voxel網(wǎng)格填補(bǔ)了2D和3D表示之間的差距。Maturana和Scherer的VoxNet(地址:https://www.ri.cmu.edu/pubfiles/2015/9/voxnetmaturanaschereriros15.pdf)是最初用深度學(xué)習(xí)方法在圖像分類上達(dá)到較好結(jié)果的方法。

VoxNet結(jié)構(gòu)

VoxNet的結(jié)構(gòu)非常簡(jiǎn)潔,包括兩個(gè)卷積層,一個(gè)最大池化層和兩個(gè)用于計(jì)算輸出分?jǐn)?shù)向量的完全連接層。該網(wǎng)絡(luò)結(jié)構(gòu)更簡(jiǎn)單,參數(shù)也更少,但它是從上百個(gè)CNN架構(gòu)中隨機(jī)搜索得到的。

用點(diǎn)云學(xué)習(xí)

PointNet

由于基于voxel的方法有多種限制,最近一些研究開(kāi)始直接處理原始的點(diǎn)云。Qi等人于2016年提出的PointNet(地址:arxiv.org/pdf/1612.00593.pdf)是首個(gè)處理這種不規(guī)則3D數(shù)據(jù)的方法。然而,如論文作者所說(shuō),點(diǎn)云僅僅是一些用xyz坐標(biāo)組合起來(lái)的3D表示。另外,網(wǎng)絡(luò)應(yīng)該對(duì)點(diǎn)云的變化保持穩(wěn)定,例如旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等等。

PointNet結(jié)構(gòu)

PointNet++

雖然PointNet能達(dá)到較好的效果,但是它的一個(gè)重要缺陷是結(jié)構(gòu)無(wú)法捕捉近鄰點(diǎn)之內(nèi)的本地結(jié)構(gòu)。為了解決這個(gè)問(wèn)題,Qi等人在2017年提出了PointNet++(地址:arxiv.org/pdf/1706.02413.pdf),它是PointNet的升級(jí)版,它背后的主要原理是一個(gè)分級(jí)的特征學(xué)習(xí)層,主要工作過(guò)程有三步,首先它會(huì)對(duì)點(diǎn)進(jìn)行采樣,用作局部區(qū)域的中心,之后根據(jù)這些區(qū)域中近鄰點(diǎn)到中心點(diǎn)的距離分組,然后用mini-PointNet對(duì)區(qū)域進(jìn)行特征編碼。

未來(lái)研究新方向

目前對(duì)3D數(shù)據(jù)的處理主要集中在點(diǎn)云表示,除此之外還有一些其他成果。2018年,Wang等人提出的Dynamic Graph CNNs利用基于圖形的深度學(xué)習(xí)方法提高了在點(diǎn)云中的特征提取。

另一方面,一些研究者設(shè)計(jì)了新方法處理點(diǎn)云,Su等人的SPLATNet架構(gòu)就是很典型的例子。作者設(shè)計(jì)了一種全新架構(gòu)和卷積操作器,可以直接在點(diǎn)云上進(jìn)行操作。它的核心思想是將“接受域”的概念轉(zhuǎn)換成不規(guī)則的點(diǎn)云,即使在稀疏空間中也能看到空間信息。

SPLATNet架構(gòu)

第三種有前景的研究防線是擴(kuò)展基礎(chǔ)結(jié)構(gòu),建造更詳細(xì)的網(wǎng)絡(luò)用于3D目標(biāo)檢測(cè)。2017年,Qi等人的Frustum Pointns提出了一種新方法,將RGB圖像和點(diǎn)云融合,提高了模型在3D場(chǎng)景中定位的效率。

結(jié)語(yǔ)

過(guò)去五年,3D深度學(xué)習(xí)方法從多角度發(fā)展到點(diǎn)云的3D數(shù)據(jù)表示,各種處理方法層出不窮,這些研究結(jié)果都非常有前景,因?yàn)樗鼈兡軌蛘鎸?shí)地用3D表現(xiàn)出現(xiàn)實(shí)世界。

然而,這些進(jìn)步僅僅是開(kāi)始。目前的工作不僅關(guān)注如何提高算法的精確度和性能,而且還要保證它們的穩(wěn)定性和可擴(kuò)展性。雖然現(xiàn)在的大部分研究都是來(lái)自自動(dòng)駕駛的需求,但直接在點(diǎn)云上操作的方法能在3D醫(yī)學(xué)成像、VR和室內(nèi)地圖中發(fā)揮很大的作用。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    2882

    瀏覽量

    107585
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    784

    文章

    13826

    瀏覽量

    166502
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5503

    瀏覽量

    121206

原文標(biāo)題:超越平面像素:3D數(shù)據(jù)的感知與學(xué)習(xí)

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    3D打印技術(shù)未來(lái)十大應(yīng)用方向

    本文簡(jiǎn)述了了未來(lái)3D打印技術(shù)行業(yè)可能的10大應(yīng)用方向。
    發(fā)表于 10-04 17:20 ?3991次閱讀
    <b class='flag-5'>3D</b>打印<b class='flag-5'>技術(shù)</b><b class='flag-5'>未來(lái)</b>十大應(yīng)用<b class='flag-5'>方向</b>

    3d全息聲音技術(shù)解析

    ,但與此同時(shí),物體飛行時(shí)發(fā)出的聲音卻沒(méi)能跟著一起“飛”過(guò)來(lái)。而3D全息聲音技術(shù)要做到的,就是當(dāng)物體飛到你眼前甚至砸在你臉上時(shí),聲音也同時(shí)在最近處響起——就像生活中的真實(shí)場(chǎng)景一樣。這是目前世界上最為
    發(fā)表于 04-16 10:39

    如何利用3D打印技術(shù)做發(fā)光字

    `3D打印技術(shù)運(yùn)用到廣告標(biāo)識(shí)行業(yè),預(yù)示著廣告制作工藝的由復(fù)雜到簡(jiǎn)易化的發(fā)展方向,只要圖形設(shè)計(jì)出來(lái),那就可以3D打印出來(lái),這種優(yōu)勢(shì)是任何技術(shù)
    發(fā)表于 10-14 16:56

    頻譜感知技術(shù)研究發(fā)展到了哪一步?未來(lái)發(fā)展方向是什么?

    無(wú)線網(wǎng)絡(luò)中的頻譜使用信息。從無(wú)線網(wǎng)絡(luò)的功能分層角度看,頻譜感知技術(shù)主要涉及物理層和鏈路層,其中物理層主要關(guān)注各種具體的本地檢測(cè)算法,而鏈路層主要關(guān)注用戶間的協(xié)作以及對(duì)感知機(jī)制的控制與優(yōu)
    發(fā)表于 08-02 07:22

    3D傳感器如何為車(chē)內(nèi)安全保駕護(hù)航?

    圖像感知技術(shù)公司,此前,他們的3D感知技術(shù)已經(jīng)實(shí)現(xiàn)了穿透不同材料、感知液體,
    發(fā)表于 07-29 07:38

    3D顯示技術(shù)發(fā)展現(xiàn)狀及未來(lái)趨勢(shì)

    3D行業(yè)的發(fā)展,預(yù)計(jì)2021年收入將達(dá)到250億元。相關(guān)報(bào)告:華經(jīng)產(chǎn)業(yè)研究院發(fā)布的《2020-2025年中國(guó)裸眼3D顯示器行業(yè)市場(chǎng)前景預(yù)測(cè)及投資戰(zhàn)略研究報(bào)告》四、3D顯示
    發(fā)表于 11-27 16:17

    AR0237IR圖像傳感器推動(dòng)3D成像技術(shù)發(fā)展

    )和Lumentum的VCSEL技術(shù),不同于其他圖像傳感器使用RGB模式生成觀看圖像流并需要另一個(gè)IR模塊來(lái)檢測(cè)運(yùn)動(dòng)的生動(dòng)性。該方案采用深入感知,以及反欺詐和
    發(fā)表于 12-16 16:14

    電視才是3D技術(shù)未來(lái)發(fā)展的核心

    在2012美國(guó)廣播電視展覽會(huì)(NAB)上,他沒(méi)有過(guò)多地談?wù)?b class='flag-5'>3D電影,而是語(yǔ)出驚人地預(yù)測(cè),電視才是3D技術(shù)未來(lái)發(fā)展的決定因素。
    發(fā)表于 04-23 09:02 ?1286次閱讀

    3d打印的未來(lái)發(fā)展方向

    本視頻主要詳細(xì)介紹了3d打印的未來(lái)發(fā)展方向,分別是打破尺寸限制、360°打印、打印集成、捆綁和通用。
    的頭像 發(fā)表于 03-26 16:31 ?8754次閱讀

    我國(guó)3D打印材料產(chǎn)業(yè)未來(lái)發(fā)展分析

    。由于3D打印在裝備制造業(yè)中應(yīng)用較廣,金屬類3D打印材料的需求也變得越來(lái)越大,未來(lái)我國(guó)3D打印材料行業(yè)將逐一解決行業(yè)發(fā)展痛點(diǎn),不斷向更高質(zhì)量
    發(fā)表于 05-10 08:52 ?2877次閱讀
    我國(guó)<b class='flag-5'>3D</b>打印材料產(chǎn)業(yè)<b class='flag-5'>未來(lái)</b><b class='flag-5'>發(fā)展</b>分析

    什么是3D場(chǎng)景式消費(fèi),新興技術(shù)如何助力發(fā)展

    隨著5G、AI和3D等新興技術(shù)發(fā)展,3D場(chǎng)景式消費(fèi)將作為一種全新的購(gòu)物體驗(yàn)進(jìn)入人們的日常生活中,從傳統(tǒng)的實(shí)體店到現(xiàn)在的電商平臺(tái),線下體驗(yàn)線
    的頭像 發(fā)表于 07-08 11:50 ?2757次閱讀

    什么是3D視覺(jué)感知底層技術(shù)全圖?

    “AIOT時(shí)代離不開(kāi)3D視覺(jué)感知底層技術(shù)的支撐,但技術(shù)越往底層深入,攻堅(jiān)難度將越呈指數(shù)級(jí)增長(zhǎng)。為此,展開(kāi)3D視覺(jué)
    的頭像 發(fā)表于 06-15 09:58 ?3430次閱讀

    3D成像感知的現(xiàn)狀和未來(lái)

    來(lái)源:大話成像 Yan Ming,Eric 編輯:感知芯視界 隨著科技的迅猛發(fā)展,我們正逐漸邁向一個(gè)數(shù)字化、智能化的未來(lái)。在這場(chǎng)革命性的變革中,3D成像和傳感
    的頭像 發(fā)表于 08-21 10:07 ?791次閱讀

    如何實(shí)現(xiàn)高精度的3D感知

    ? 端到端自動(dòng)駕駛是自動(dòng)駕駛技術(shù)的重要發(fā)展方向之一。而要實(shí)現(xiàn)端到端自動(dòng)駕駛,離不開(kāi)高精度3D信息輸入,因此如何實(shí)現(xiàn)高精度的3D感知尤為關(guān)鍵。
    的頭像 發(fā)表于 10-17 09:53 ?1171次閱讀

    3D HMI應(yīng)用場(chǎng)景發(fā)展趨勢(shì)

    人機(jī)交互的革命性趨勢(shì)。本文將探討3DHMI設(shè)計(jì)的概念、優(yōu)勢(shì)、應(yīng)用場(chǎng)景以及未來(lái)發(fā)展趨勢(shì)。3DHMI
    的頭像 發(fā)表于 02-19 13:27 ?1197次閱讀
    <b class='flag-5'>3D</b> HMI應(yīng)用<b class='flag-5'>場(chǎng)景</b>和<b class='flag-5'>發(fā)展</b>趨勢(shì)