1. 文章摘要與主要貢獻(xiàn)
從一張圖片中推斷出具有合理形狀和外觀的物體是一個(gè)具有挑戰(zhàn)性的問(wèn)題。現(xiàn)有的研究往往更多地關(guān)注點(diǎn)云生成網(wǎng)絡(luò)的結(jié)構(gòu),而忽略了二維圖像的特征提取,減少了網(wǎng)絡(luò)中特征傳播過(guò)程中的損失。本文提出了一種單級(jí)單視圖三維點(diǎn)云重建網(wǎng)絡(luò)3D SSRecNet。所提出的3D SSRecNet是一個(gè)簡(jiǎn)單的單級(jí)網(wǎng)絡(luò),由2D圖像特征提取網(wǎng)絡(luò)和點(diǎn)云預(yù)測(cè)網(wǎng)絡(luò)組成。單級(jí)網(wǎng)絡(luò)結(jié)構(gòu)可以減少提取的2D圖像特征的丟失。二維圖像特征提取網(wǎng)絡(luò)以DetNet為骨干。DetNet可以從2D圖像中提取更多細(xì)節(jié)。
為了生成形狀和外觀更好的點(diǎn)云,在點(diǎn)云預(yù)測(cè)網(wǎng)絡(luò)中,使用ELU作為激活函數(shù),并使用CD和EMD的聯(lián)合函數(shù)作為3D SSRecNet的損失函數(shù)。為了驗(yàn)證3D SSRecNet的有效性,該文在ShapeNet和Pix3D數(shù)據(jù)集上進(jìn)行了一系列實(shí)驗(yàn)。CD和EMD測(cè)量的實(shí)驗(yàn)結(jié)果表明,3D SSRecNet優(yōu)于最先進(jìn)的重建方法。
該文工作的主要貢獻(xiàn)如下:
- 該文提出了一種用于從單個(gè)圖像進(jìn)行3D重建的單階段神經(jīng)網(wǎng)絡(luò),即3D SSRecNet。3D SSRecNet將圖像作為輸入,并直接輸出預(yù)測(cè)的點(diǎn)云,而無(wú)需進(jìn)一步處理。
- 3D SSRecNet包括特征提取和三維點(diǎn)云生成。特征提取網(wǎng)絡(luò)更善于提取2D輸入的詳細(xì)特征。點(diǎn)云生成網(wǎng)絡(luò)具有簡(jiǎn)單的結(jié)構(gòu),并在其多層感知器中使用適當(dāng)?shù)募せ詈瘮?shù),這減少了轉(zhuǎn)發(fā)傳播過(guò)程中的特征損失,以獲得精細(xì)的輸出。
- 在ShapeNet和pix3D數(shù)據(jù)集上的實(shí)驗(yàn)表明,3D SSRecNet在單視圖重建任務(wù)上優(yōu)于現(xiàn)有技術(shù)的重建方法。同時(shí),該文還通過(guò)實(shí)驗(yàn)證明了點(diǎn)云生成網(wǎng)絡(luò)激活函數(shù)的有效性。
**2. **研究方法
2.1 3D-SSRecNet的結(jié)構(gòu)
3D SSRecNet的體系結(jié)構(gòu)如圖1所示。3D SSRecNet包括兩個(gè)主要部分:二維圖像特征提取網(wǎng)絡(luò)和點(diǎn)云預(yù)測(cè)網(wǎng)絡(luò)。這兩個(gè)部分構(gòu)成了一個(gè)簡(jiǎn)單的單階段點(diǎn)云重建網(wǎng)絡(luò)。單階段網(wǎng)絡(luò)結(jié)構(gòu)僅在3D SSRecNet的網(wǎng)絡(luò)內(nèi)傳輸2D圖片的特征。與需要跨網(wǎng)絡(luò)傳輸特征的兩階段重建網(wǎng)絡(luò)相比,這種網(wǎng)絡(luò)結(jié)構(gòu)減少了特征的損失。
圖 1 3D-SSRecNet框架—architecture of 3D-SSRecNet.
給定一個(gè)2D圖像,首先,該文通過(guò)DetNet獲得一個(gè)潛在的表示V。然后,該文通過(guò)全連接(FC)層將V映射到低維特征V’。然后直接應(yīng)用多層感知器(MLP)對(duì)點(diǎn)集進(jìn)行預(yù)測(cè)。在訓(xùn)練過(guò)程中,計(jì)算倒角距離和推土機(jī)的距離損失函數(shù),并監(jiān)督可訓(xùn)練參數(shù)的更新。
2.2 二維圖像特征提取
許多圖像特征網(wǎng)絡(luò)應(yīng)用下采樣,帶來(lái)了更高的感受野,但不可避免地造成了圖像細(xì)節(jié)的損失。然而,對(duì)于重建,圖像細(xì)節(jié)對(duì)于幾何形狀的恢復(fù)至關(guān)重要。這種網(wǎng)絡(luò)更適合圖像分類(lèi)任務(wù),但不適合需要更詳細(xì)特征的重建任務(wù)。
DetNet不僅保留了更多的細(xì)節(jié),而且保留了很大的感受野。盡管DetNet是為物體檢測(cè)而設(shè)計(jì)的,但其新穎的擴(kuò)張瓶頸結(jié)構(gòu)提供了高分辨率的特征圖和大的感受野。該文使用DetNet作為圖像特征提取的主干。DetNet在階段4之前遵循與ResNet-50相同的結(jié)構(gòu),因此DetNet還具有易于訓(xùn)練且不會(huì)陷入梯度消失的優(yōu)點(diǎn)。表1顯示了DetNet最后兩個(gè)階段的參數(shù),即DetNet和ResNet-50之間的差異。
在第4階段之后,DetNet將特征圖的大小保持在16×16,這使得能夠保留更多細(xì)節(jié)。DetNet的第五和第六階段由具有擴(kuò)張卷積的瓶頸組成,一些瓶頸在其快捷連接上具有1×1卷積。擴(kuò)大的卷積增加了感受野。然而,考慮到計(jì)算量和存儲(chǔ)量,階段5和階段6設(shè)置相同的通道數(shù)256。在基線結(jié)束時(shí),將應(yīng)用完全連接的圖層。
表 1 DetNet最后兩個(gè)階段的參數(shù)—the parameters of last two stages DetNet.
如圖1所示,在對(duì)輸入圖像進(jìn)行特征提取后,該文獲得了輸入圖像的1000維潛在特征V。之后,全連接(FC)層將向量V的維度從1000壓縮到100,并獲得向量V’。
2.3 點(diǎn)云預(yù)測(cè)
該文使用三層MLP來(lái)直接預(yù)測(cè)點(diǎn)集。三個(gè)MLP層的輸出尺寸分別為512、1024和N×3。特征提取網(wǎng)絡(luò)的輸出:向量V'被饋送到點(diǎn)云預(yù)測(cè)網(wǎng)絡(luò)的MLP中。在前兩層上,引入ELU作為激活函數(shù)。
ELU激活函數(shù)及其導(dǎo)數(shù)的曲線分別如圖2a、b所示。對(duì)于常見(jiàn)的激活函數(shù),如ReLU,對(duì)應(yīng)于負(fù)軸的值為0。然而,標(biāo)準(zhǔn)化的點(diǎn)云坐標(biāo)間隔為[-1,1],這表明點(diǎn)云坐標(biāo)將具有負(fù)值。如圖2a所示,ELU激活函數(shù)的負(fù)軸對(duì)應(yīng)的值為非零。因此,使用ELU作為激活函數(shù),重建網(wǎng)絡(luò)中的負(fù)值信息在前向傳播過(guò)程中不會(huì)丟失。如圖3b所示,ELU的導(dǎo)數(shù)在負(fù)軸上也是非零的。在網(wǎng)絡(luò)的反向傳播過(guò)程中,負(fù)梯度不會(huì)丟失,它可以幫助更新網(wǎng)絡(luò)權(quán)重。
(a)激活函數(shù)ELU曲線 (b) ELU導(dǎo)數(shù)曲線
Curve of activation function ELU Curve of derivative of ELU
圖 2 ELU激活函數(shù)及其導(dǎo)數(shù)—ELU activation function and its derivative
圖 3 具有相同CD損失值的不同重建—different reconstructions with the same CD loss value
在實(shí)驗(yàn)部分,該文證明了使用ELU作為激活函數(shù)的重建效果優(yōu)于使用其他激活函數(shù)。該文在最后一個(gè)激活層之后直接輸出預(yù)測(cè)的點(diǎn)集。它由tanh函數(shù)實(shí)現(xiàn),其輸出屬于[-1,1],與所需的點(diǎn)集數(shù)據(jù)相同。
2.4 損失函數(shù)
定義點(diǎn)云重建的損失函數(shù)。該文必須考慮兩個(gè)重要的性質(zhì)。(1)點(diǎn)云是一個(gè)無(wú)序的點(diǎn)集,因此無(wú)論該文如何改變點(diǎn)的順序,該文都將獲得相同的數(shù)據(jù)。(2)無(wú)論任何旋轉(zhuǎn)變換,真實(shí)物體的幾何特征均不得發(fā)生顯著變化。然而,例如,當(dāng)該文進(jìn)行旋轉(zhuǎn)變換時(shí),點(diǎn)坐標(biāo)似乎不同。
CD定義如下:
EMD定義如下:
綜合CD和EMD的優(yōu)缺點(diǎn),該文的網(wǎng)絡(luò)的損失函數(shù)定義為:
3. 實(shí)驗(yàn)過(guò)程 ****
該文分別在ShapeNet和Pix3D數(shù)據(jù)集上評(píng)估了所提出的3D SSRecNet。ShapeNet是一個(gè)紋理CAD模型的大集合,由13個(gè)類(lèi)和43809個(gè)點(diǎn)云模型組成,用于訓(xùn)練和測(cè)試。該文使用80–20%的訓(xùn)練/測(cè)試分割來(lái)執(zhí)行該文的實(shí)驗(yàn)。該文在Pix3D數(shù)據(jù)庫(kù)上進(jìn)行了同樣的實(shí)驗(yàn)。Pix3D數(shù)據(jù)庫(kù)由三個(gè)類(lèi)和7595個(gè)點(diǎn)云模型組成。該數(shù)據(jù)集是真實(shí)場(chǎng)景的CAD模型。在Pix3D上的實(shí)驗(yàn)可以更好地評(píng)估點(diǎn)云重建算法的實(shí)用性。
該文使用梯度優(yōu)化算法Adam來(lái)優(yōu)化所提出的3DSSRecNet。在訓(xùn)練中,該文將學(xué)習(xí)率設(shè)置為0.0005,將歷元設(shè)置為50。訓(xùn)練環(huán)境如下:Ubuntu 18.04.6,CUDA 10.1,GPU型號(hào)為NVIDIA Tesla T4×4。該文使用在1024個(gè)采樣點(diǎn)上計(jì)算的CD和EMD值來(lái)評(píng)估重建點(diǎn)云的質(zhì)量。
表 2 ShapeNet數(shù)據(jù)集上不同激活函數(shù)的重構(gòu)結(jié)果—reconstruction results of different activation functions on ShapeNet dataset.
表 3 CD評(píng)估的ShapeNet重建結(jié)果—reconstruction results on ShapeNet evaluated by CD
表 4 EMD評(píng)估的ShapeNet重建結(jié)果—reconstruction results on ShapeNet evaluated by EMD
**4. **文章結(jié)論
本文提出了一種高效的三維點(diǎn)云重建方法3DSSRecNet。給定圖像,它學(xué)習(xí)潛在的表示,在降維后,該文應(yīng)用MLP直接預(yù)測(cè)對(duì)應(yīng)點(diǎn)云。該文在ShapeNet和Pix3D數(shù)據(jù)集上進(jìn)行了幾個(gè)實(shí)驗(yàn)。該文證明了在發(fā)電網(wǎng)絡(luò)中使用激活函數(shù)ELU的重建效果優(yōu)于使用其他激活函數(shù)。也就是說(shuō),使用ELU生成的點(diǎn)云的CD和EMD值低于使用其他激活函數(shù)生成的點(diǎn)云中的CD和EMD值。
**5. **閱讀心得
這篇論文提出了一種名為3D-SSRecNet的單階段和單視圖3D點(diǎn)云重建網(wǎng)絡(luò),該網(wǎng)絡(luò)由2D圖像特征提取網(wǎng)絡(luò)和點(diǎn)云預(yù)測(cè)網(wǎng)絡(luò)組成。單階段網(wǎng)絡(luò)結(jié)構(gòu)可以減少提取的2D圖像特征的損失。2D圖像特征提取網(wǎng)絡(luò)采用DetNet作為骨干網(wǎng)絡(luò),可以從2D圖像中提取更多細(xì)節(jié)。為了生成形狀和外觀更好的點(diǎn)云,在點(diǎn)云預(yù)測(cè)網(wǎng)絡(luò)中,使用ELU作為激活函數(shù),并使用Chamfer距離(CD)和Earth mover’s distance(EMD)的聯(lián)合函數(shù)作為3D-SSRecNet的損失函數(shù)。在ShapeNet和Pix3D數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)結(jié)果表明,通過(guò)CD和EMD測(cè)量,3D-SSRecNet優(yōu)于現(xiàn)有的重建方法。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4772瀏覽量
100808 -
CAD
+關(guān)注
關(guān)注
17文章
1092瀏覽量
72537 -
EMD
+關(guān)注
關(guān)注
1文章
43瀏覽量
20056 -
感知器
+關(guān)注
關(guān)注
0文章
34瀏覽量
11842 -
MLP
+關(guān)注
關(guān)注
0文章
57瀏覽量
4253
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論