摘要
虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)(XR)帶來(lái)了對(duì)3D內(nèi)容生成的不斷增長(zhǎng)需求。然而,創(chuàng)建高質(zhì)量的3D內(nèi)容需要人類(lèi)專(zhuān)家進(jìn)行繁瑣的工作。在本文中,我們研究了將單個(gè)圖像提升為3D對(duì)象的具有挑戰(zhàn)性的任務(wù),并首次展示了能夠生成與給定參考圖像相對(duì)應(yīng)的具有360°視圖的可信3D對(duì)象。通過(guò)條件化參考圖像,我們的模型可以滿(mǎn)足從圖像合成物體新視角的永恒好奇心。我們提出了NeuralLift-360,一種新穎框架,利用深度感知神經(jīng)輻射場(chǎng)生成可信3D對(duì)象,并通過(guò)CLIP引導(dǎo)擴(kuò)散先驗(yàn)學(xué)習(xí)概率驅(qū)動(dòng)3D提升,并通過(guò)比例不變深度排名損失減輕深度誤差。我們?cè)谡鎸?shí)和合成圖像上進(jìn)行了全面實(shí)驗(yàn),在這些實(shí)驗(yàn)中,NeuralLift-360優(yōu)于當(dāng)前最先進(jìn)方法。
主要貢獻(xiàn)
? 針對(duì)野外的單張圖片,我們展示了將其提升到3D的有前景的結(jié)果。我們使用NeRF作為有效的場(chǎng)景表示,并整合來(lái)自擴(kuò)散模型的先驗(yàn)知識(shí)。
? 我們提出了一種以CLIP為引導(dǎo)的采樣策略,有效地將擴(kuò)散模型的先驗(yàn)知識(shí)與參考圖像結(jié)合起來(lái)。
? 當(dāng)參考圖像難以精確描述時(shí),我們?cè)诒3制渖啥鄻觾?nèi)容以指導(dǎo)NeRF訓(xùn)練的能力的同時(shí),對(duì)單張圖像進(jìn)行擴(kuò)散模型的微調(diào)。
? 我們引入了一種使用排名信息的尺度不變深度監(jiān)督。這種設(shè)計(jì)減輕了對(duì)準(zhǔn)確多視角一致深度估計(jì)的需求,并擴(kuò)大了我們算法的應(yīng)用范圍。
主要方法
1.從單個(gè)2D圖像中生成3D點(diǎn)云:首先,使用一個(gè)預(yù)訓(xùn)練的2D圖像到3D點(diǎn)云模型來(lái)生成初始點(diǎn)云。然后,使用一個(gè)深度感知神經(jīng)輻射場(chǎng)來(lái)對(duì)點(diǎn)云進(jìn)行細(xì)化和修正。具體地,該神經(jīng)輻射場(chǎng)將每個(gè)點(diǎn)的深度值作為輸入,并輸出一個(gè)向量場(chǎng),該向量場(chǎng)將每個(gè)點(diǎn)移動(dòng)到其正確的位置。
2.從3D點(diǎn)云中生成可渲染的3D網(wǎng)格:使用一個(gè)基于深度學(xué)習(xí)的方法來(lái)將點(diǎn)云轉(zhuǎn)換為可渲染的3D網(wǎng)格。具體地,該方法使用一個(gè)編碼器網(wǎng)絡(luò)將3D點(diǎn)云編碼為特征向量,并使用一個(gè)解碼器網(wǎng)絡(luò)將特征向量解碼為可渲染的3D網(wǎng)格。
3.從可渲染的3D網(wǎng)格中生成360°視圖:使用一個(gè)基于深度學(xué)習(xí)的方法來(lái)生成與給定參考圖像相對(duì)應(yīng)的具有360°視圖的可信3D對(duì)象。具體地,該方法使用一個(gè)編碼器網(wǎng)絡(luò)將參考圖像編碼為特征向量,并使用一個(gè)解碼器網(wǎng)絡(luò)將特征向量解碼為360°視圖。
4.使用CLIP引導(dǎo)擴(kuò)散先驗(yàn)學(xué)習(xí)概率驅(qū)動(dòng)3D提升:使用一個(gè)基于擴(kuò)散的方法來(lái)生成3D對(duì)象,并使用CLIP模型來(lái)指導(dǎo)擴(kuò)散過(guò)程。具體地,該方法使用一個(gè)初始的3D對(duì)象,并通過(guò)多次迭代來(lái)擴(kuò)散該對(duì)象。在每次迭代中,使用CLIP模型來(lái)計(jì)算當(dāng)前3D對(duì)象與參考圖像之間的相似度,并將相似度作為概率分布來(lái)指導(dǎo)擴(kuò)散過(guò)程。
5.使用比例不變深度排名損失減輕深度誤差:使用一個(gè)比例不變深度排名損失來(lái)訓(xùn)練模型,以減輕深度誤差。具體地,該損失函數(shù)將每個(gè)像素的深度值與其在圖像中的排名相關(guān)聯(lián),并使用比例不變的方式來(lái)計(jì)算損失。這種方法可以減輕深度誤差,并提高模型的性能。
主要結(jié)果
審核編輯 :李倩
-
編碼器
+關(guān)注
關(guān)注
45文章
3787瀏覽量
137685 -
網(wǎng)格
+關(guān)注
關(guān)注
0文章
141瀏覽量
16310 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5557瀏覽量
122685
原文標(biāo)題:NeuralLift-360:將野外的2D照片提升為3D物體
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
如何同時(shí)獲取2d圖像序列和相應(yīng)的3d點(diǎn)云?
請(qǐng)問(wèn)怎么才能將AD中的3D封裝庫(kù)轉(zhuǎn)換為2D的封裝庫(kù)?
為什么3D與2D模型不能相互轉(zhuǎn)換?
如何促使2D和3D視覺(jué)檢測(cè)的性能成倍提升?
視覺(jué)處理,2d照片轉(zhuǎn)3d模型
2D到3D視頻自動(dòng)轉(zhuǎn)換系統(tǒng)

評(píng)論