基于圖像進(jìn)行三維重建是一個(gè)十分重要的研究問(wèn)題,來(lái)自于計(jì)算機(jī)視覺(jué)、圖形學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的研究人員對(duì)這個(gè)領(lǐng)域進(jìn)行了多年的探索。同時(shí)通過(guò)圖像進(jìn)行三維重建在機(jī)器人導(dǎo)航、視覺(jué)感知、物體識(shí)別、環(huán)境理解、三維建模等領(lǐng)域有著重要意義,也會(huì)為工業(yè)制造、智能控制和醫(yī)療健康等行業(yè)帶來(lái)廣泛的應(yīng)用。
隨著深度學(xué)習(xí)的飛速發(fā)展,基于圖像的重建問(wèn)題呈現(xiàn)出新的面貌、出現(xiàn)了很多令人驚嘆的研究工作和新的探索方向。
為了充分了解基于深度學(xué)習(xí)方法利用圖像進(jìn)行三維重建的發(fā)展脈絡(luò)、技術(shù)路線(xiàn)和主要方法、分析這一領(lǐng)域的關(guān)鍵問(wèn)題和主要技術(shù)手段,來(lái)自天津大學(xué)、西澳大學(xué)和莫道克大學(xué)的研究人員們對(duì)這一領(lǐng)域進(jìn)行了全面的梳理,對(duì)利用深度學(xué)習(xí)手段從圖像估計(jì)三維形貌的諸多工作進(jìn)行了總結(jié)。從114+論文中整理了詳盡的資源,分別從三維表示、網(wǎng)絡(luò)架構(gòu)和訓(xùn)練策略等方面進(jìn)行分析,并給出這一領(lǐng)域的開(kāi)放問(wèn)題和未來(lái)值得探索的方向。
從2D圖像中恢復(fù)出缺失的維度曾是多視圖立體視覺(jué)以及從多種線(xiàn)索恢復(fù)形狀(shape from …)研究的天下?;趲缀我暯堑难芯恐饕斫獠?gòu)建3D到2D的投影關(guān)系,并建立有效的數(shù)學(xué)模型來(lái)解決這一問(wèn)題。這種方法通常需要進(jìn)行相機(jī)標(biāo)定和多視角拍攝的圖像,并基于特征匹配和三角關(guān)系在3D坐標(biāo)系中進(jìn)行重建。同樣基于其他線(xiàn)索的三維重建也需要大量的圖像和相機(jī)標(biāo)定,這會(huì)大大限制了多種環(huán)境下的應(yīng)用。但我們?cè)谌粘I钪锌梢愿惺艿饺f(wàn)能的人眼可以結(jié)合大量的先驗(yàn)知識(shí)通過(guò)一眼就能推斷出物體的三維形狀,甚至是在其他視角下的模樣。在人眼的啟發(fā)下,研究人員開(kāi)始利用深度學(xué)習(xí)和先驗(yàn)知識(shí)構(gòu)架第二代3D重建方法,在大量數(shù)據(jù)的支撐下實(shí)現(xiàn)從單張或多張RGB圖像直接重建出物體的三維形貌,而無(wú)需復(fù)雜的標(biāo)定和數(shù)學(xué)過(guò)程。
這些方法在近年來(lái)取得了令人矚目的效果,在通用物體重建和類(lèi)似人臉的特殊物體重建上都取得了不錯(cuò)的結(jié)果。接下來(lái)我們將從重建問(wèn)題的流程,三維表示,基于不同表示的重建方法、模型架構(gòu)、數(shù)據(jù)集以及訓(xùn)練過(guò)程等方面回顧過(guò)去幾年間深度學(xué)習(xí)在這一領(lǐng)域的發(fā)展。
三維重建問(wèn)題及關(guān)鍵概念
三維重建問(wèn)題可以歸結(jié)為通過(guò)n張RGB圖I(n>=1)預(yù)測(cè)出單個(gè)或多個(gè)目標(biāo)X,學(xué)習(xí)的過(guò)程就是將圖像I映射為形狀X的函數(shù)f(theta),并盡可能地縮小預(yù)測(cè)形狀與真實(shí)形狀間的差異,這一差異在深度學(xué)習(xí)中就以損失函數(shù)的形式表現(xiàn)出來(lái)。輸入:基于圖像的三維重建,其輸入可以是單張圖像也可以是多張圖像、甚至可以是視頻流,可以是內(nèi)參已知的也可以是內(nèi)參未知的。除了通常的圖像外,還可以通過(guò)一系列額外信息輔助三維重建,包括輪廓、語(yǔ)義標(biāo)簽、分割掩膜等,作為先驗(yàn)信息引導(dǎo)算法進(jìn)行重建;
輸出:在三維空間中,物體通常有多種表示方法,包括體素、表面網(wǎng)格以及其他中間媒介。作為三維重建的輸出,合適的表示方式對(duì)于算法的選擇和重建的結(jié)果至關(guān)重要。
體素(volumetric,voxel)表示是基于深度學(xué)習(xí)的三維重建領(lǐng)域最早開(kāi)始采用的方式,使得諸多參數(shù)化物體可以通過(guò)規(guī)則的空間體素網(wǎng)格來(lái)表示。這種方法可以將圖像領(lǐng)域使用的架構(gòu)拓展到三維領(lǐng)域,利用規(guī)則的三維卷積實(shí)現(xiàn)三維重建。這種方法雖然是二維卷積的自然延伸,但在三維空間中操作收到了內(nèi)存的限制,會(huì)消耗巨大的算力資源。
在學(xué)界和工業(yè)界,基于體素的表示方法主要分為四種主要的類(lèi)型,分別是基于二值占據(jù)的柵格、基于概率占據(jù)的柵格、符號(hào)距離函數(shù)(SDF)的表示以及截?cái)喾?hào)距離函數(shù)(TSDF)的表示。這些表示創(chuàng)建了對(duì)于物體空間的規(guī)則采樣,如果不進(jìn)行有效處理,對(duì)于物體的重建將受到體素分辨率的限制。
早期基于體素的三維學(xué)習(xí)方式采用了均勻的空間體素網(wǎng)格,雖然這種方法易于使用3D卷積在GPU上實(shí)現(xiàn),但由于三維體素和卷積對(duì)于計(jì)算資源的消耗,使得均勻體素的表示空間分辨率限制在了323232到646464之間,很多細(xì)節(jié)都會(huì)缺失。
為了解決這一問(wèn)題,在給定計(jì)算資源下實(shí)現(xiàn)較好的高分辨率重建,研究人員提出了各種方法用于提高體素表示的分辨率,通過(guò)空間刨分、形狀刨分子空間參數(shù)化和由粗到精的優(yōu)化策略等實(shí)現(xiàn)了較好的細(xì)節(jié)重建。
三種典型的形狀刨分策略,基于八叉樹(shù)和層級(jí)空間刨分策略實(shí)現(xiàn)了較好的細(xì)節(jié)恢復(fù)。
除此之外還有多種體素表示方式,研究人員們總結(jié)從表示、分辨率和架構(gòu)等方面總結(jié)了二十多種文獻(xiàn)中的方法,詳細(xì)總結(jié)了基于體素的研究。
三維表面(surface based)是三維形狀的另一種表示方法,這種方法可以克服體素帶來(lái)的計(jì)算資源消耗問(wèn)題。主要的方法包括基于表面網(wǎng)格和點(diǎn)云的方法,以及參數(shù)化三維重建和基于可變形模版的三維重建。但這種高效的方法所面臨的最大問(wèn)題在于表示的不規(guī)則性,使得典型的深度學(xué)習(xí)架構(gòu)無(wú)法方便的處理這些表示。
研究人員們提出了各種方法來(lái)解決這一問(wèn)題,包括改進(jìn)的二維卷積、球卷積、可變形模型和編碼器解碼器架構(gòu)。下表總結(jié)可以各種基于mesh的表示的網(wǎng)絡(luò)架構(gòu)。
點(diǎn)云作為一種重要的三維表示形式也受到了研究人員的廣泛關(guān)注。人們通常使用N*3的矩陣,或者是編碼xyz三通道的柵格數(shù)據(jù),以及深度圖來(lái)對(duì)點(diǎn)云進(jìn)行表示,并通過(guò)卷積、編碼器和解碼器等架構(gòu)來(lái)從圖像中對(duì)點(diǎn)云進(jìn)行學(xué)習(xí)和重建。
此外,有的研究人員為了降低直接從圖像學(xué)習(xí)點(diǎn)云的難度,在過(guò)程中加入了一些中介,并基于這些中間結(jié)果進(jìn)行重建。下面是一個(gè)典型的中間方法,模型首先通過(guò)圖像估計(jì)出目標(biāo)的表面法向圖、深度圖和輪廓剪影,并基于這些信息再重建出目標(biāo)的三維形貌,將一個(gè)問(wèn)題分解成多個(gè)子問(wèn)題是一種處理復(fù)雜問(wèn)題的有效手段。
除了直接從圖像重建出三維表示,研究人員還加入了一系列其他的線(xiàn)索:首先通過(guò)圖像生成2.5D的中間信息,隨后在利用深度學(xué)習(xí)或傳統(tǒng)方法重建出完整的三維形貌。
除了上述提到的法向量、深度圖和掩膜外,研究人員還探索了將深度圖投影到球空間中進(jìn)行圖像補(bǔ)全,隨后重新投影到三維空間中實(shí)現(xiàn)重建;也有研究人員重建出多張不同角度的深度圖,同時(shí)解碼出對(duì)應(yīng)的mask實(shí)現(xiàn)三維重建。進(jìn)一步的方法還有基于變形場(chǎng)的概念來(lái)結(jié)合深度圖進(jìn)行重建。同樣與空間關(guān)系相對(duì),時(shí)間聯(lián)系也可以用來(lái)通過(guò)圖像對(duì)物體進(jìn)行重建。研究人員們提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)的增量式重建方法,通過(guò)在編碼器和解碼器間插入LSTM來(lái)處理和基于圖像序列的特征,并通過(guò)多幀輸入重建出三維形狀;還有研究為了克服序列輸入帶來(lái)的順序依賴(lài)與效率問(wèn)題,采用了多個(gè)并行的編碼器解碼器架構(gòu)分別處理時(shí)序數(shù)據(jù)并在最后融合得到優(yōu)化的三維重建結(jié)果。
基于圖像進(jìn)行三維重建的基本流程
通常來(lái)說(shuō)基于圖像進(jìn)行三維重建一般分為三個(gè)部分,對(duì)圖像特征的提取也即編碼過(guò)程、對(duì)特征的分析、組合以及最后的三維重建,即解碼過(guò)程;同時(shí)還需要考慮多種不同的損失函數(shù)和針對(duì)不同任務(wù)的訓(xùn)練方法。
針對(duì)圖像進(jìn)行三維重建需要從圖像中抽取有效的特征并編碼成隱空間中的嵌入表示。一個(gè)有效嵌入特征應(yīng)該從二維圖像中穩(wěn)定的抽取,并能夠重建出合理的三維形貌。有的研究從圖像中直接抽取離散或連續(xù)的隱空間特征進(jìn)行編碼,也有的方法利用三維形狀來(lái)監(jiān)督二維編碼實(shí)現(xiàn)隱空間中編碼的相似性。有效編碼的目的在于重建與圖像對(duì)應(yīng)的三維表示。
而重建過(guò)程則對(duì)應(yīng)了解碼器。針對(duì)不同的三維表示形式,解碼器的結(jié)構(gòu)也各不相同,包括體素、網(wǎng)格、點(diǎn)云等多種不同的形式。解碼器的目的在于從圖像中抽取的形狀編碼中重建出與對(duì)應(yīng)三維目標(biāo)盡可能接近的形狀。為了提高解碼器的效率和重建的精度,包括空間剖分、可變性模型等技術(shù)被紛紛引入到這一過(guò)程中。為了實(shí)現(xiàn)有效的訓(xùn)練和重建,需要引入一系列損失函數(shù)作為監(jiān)督信號(hào)。這些監(jiān)督信號(hào)包含了原始的三維表示信號(hào),包括體素表示下的體積損失和點(diǎn)云表示下的點(diǎn)集損失。同時(shí)也可以引入一系列2D或2.5D的監(jiān)督信號(hào),例如不同視角下的圖像信號(hào)。
將重建出的三維結(jié)果投影到對(duì)應(yīng)的二維視角下計(jì)算誤差是一類(lèi)常用的做法,包括基于輪廓剪影的誤差、基于表面法向量的誤差、基于深度的誤差,同時(shí)也可以將這些誤差與三維誤差進(jìn)行加權(quán)聯(lián)合處理。在訓(xùn)練方法方面,基于圖像的三維重建除了通常使用的監(jiān)督訓(xùn)練方法外,還包括基于對(duì)抗的訓(xùn)練方法和聯(lián)合其他任務(wù)的多任務(wù)訓(xùn)練方法以獲得較好的結(jié)果。
訓(xùn)練上述的種類(lèi)多樣的重建方法,數(shù)據(jù)龐大的數(shù)據(jù)是必不可少的。研究人員們提出了多種數(shù)據(jù)集,目前常見(jiàn)的三維數(shù)據(jù)集包括了ModelNet,ShapeNet這類(lèi)基于CAD模型的三維數(shù)據(jù)集,還包括了IKEA,Pix3D等室內(nèi)家具場(chǎng)景的數(shù)據(jù)集,還包括PASCAL 3D+和ObjectNet3D等。
但這些數(shù)據(jù)的設(shè)計(jì)初衷大都不是為單圖像三維重建準(zhǔn)備的,大型的CAD數(shù)據(jù)集缺乏對(duì)應(yīng)的自然圖像,而真實(shí)數(shù)據(jù)集則數(shù)量較少。研究人員們使用各種數(shù)據(jù)增強(qiáng)方法來(lái)解決這一問(wèn)題,包括常見(jiàn)的尺度、旋轉(zhuǎn)和裁剪變換以及新視角下的渲染等方法。也有的研究人員通過(guò)目標(biāo)的掩膜來(lái)代替對(duì)自然圖像的三維標(biāo)記。
下表從各個(gè)方面總結(jié)了常見(jiàn)的3D數(shù)據(jù)集。
值得探索的方向
近年來(lái)基于圖像的三維重建得到了巨大的發(fā)展,可以預(yù)見(jiàn)深度學(xué)習(xí)在二維領(lǐng)域的成功將全面向三維領(lǐng)域深入發(fā)展,作者從數(shù)據(jù)、算法和應(yīng)用方面提出了一些值得探索的方向。
在數(shù)據(jù)方面,由于深度學(xué)習(xí)需要海量的訓(xùn)練數(shù)據(jù),希望在大規(guī)模的2D-3D標(biāo)記數(shù)據(jù)集方面有更多的工作,同時(shí)針對(duì)弱監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)的三維重建也是未來(lái)的發(fā)展方向?;谟蜻w移的訓(xùn)練算法也可以解決數(shù)據(jù)缺乏的問(wèn)題;
此外模型的泛化性和重建能力需要得到進(jìn)一步的提升,針對(duì)未知類(lèi)別物體的重建也許可以結(jié)合深度學(xué)習(xí)與傳統(tǒng)方法的優(yōu)勢(shì)來(lái)處理。模型對(duì)于細(xì)節(jié)的重建能力也需要加強(qiáng),未來(lái)對(duì)于目標(biāo)精細(xì)形貌的重建探索也值得研究人員們進(jìn)行努力;
針對(duì)特定領(lǐng)域的應(yīng)用,包括人體、人體部位、人臉、車(chē)輛、動(dòng)物、建筑等可以結(jié)合統(tǒng)計(jì)模型與深度學(xué)習(xí)的方法進(jìn)行重建,這種方法在人臉上已經(jīng)得到了較多的應(yīng)用,未來(lái)會(huì)向各領(lǐng)域進(jìn)一步發(fā)展;
針對(duì)多物體和復(fù)雜環(huán)境方面,需要將目前單物體三維重建拓展到多物體和復(fù)雜場(chǎng)景中,從多物體的數(shù)據(jù)問(wèn)題訓(xùn)練監(jiān)督上進(jìn)行探索;最后針對(duì)三維場(chǎng)景的解析和理解,包括場(chǎng)景重建、各個(gè)物體的分離與相關(guān)性分析,最終實(shí)現(xiàn)3D場(chǎng)景的精細(xì)語(yǔ)義處理也是值得探索的研究方向!
2D到3D的發(fā)展正是我們拓展世界認(rèn)知的方向,神經(jīng)網(wǎng)絡(luò)的能力從圖像到空間的進(jìn)步也將帶來(lái)更大的技術(shù)進(jìn)步。在深度學(xué)習(xí)時(shí)代,我們一同期待!
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28562瀏覽量
207698 -
智能控制
+關(guān)注
關(guān)注
4文章
599瀏覽量
42296 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121338
原文標(biāo)題:良心整理 | 深度學(xué)習(xí)時(shí)代,基于圖像的三維重建走過(guò)哪些歷程?
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門(mén)創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論