谷歌發(fā)明的由2D圖像生成3D圖像的技術(shù),利用3D估計(jì)神經(jīng)網(wǎng)絡(luò)圖像信息的補(bǔ)全以及預(yù)測(cè),融合了拍攝角度、光照等信息,讓生成的3D圖像看起來(lái)更加逼真,這種技術(shù)對(duì)于三維建模以及工業(yè)應(yīng)用都具有極大的指導(dǎo)意義。
谷歌研究人員制作的一個(gè)AI工具,可以把涂鴉變成奇怪的怪物。這款工具名為Chimera Painter,使用機(jī)器學(xué)習(xí)來(lái)根據(jù)用戶的粗略草圖生成圖像。
Chimera Painter背后的團(tuán)隊(duì)在一篇博客文章中解釋了他們的方法和動(dòng)機(jī),稱他們的想法是創(chuàng)造一種 “畫筆,它的行為不像工具,而更像助手”。Chimera Painter只是一個(gè)原型,但如果這樣的軟件變得普遍,它可以減少創(chuàng)造高質(zhì)量藝術(shù)所需的時(shí)間。
這種圖像生成技術(shù),其實(shí)在三維渲染方面有著非常廣泛的應(yīng)用,其中最具有代表性的工作之一,就是由2D圖像生成3D圖像。我們知道,3D圖像相比于2D圖像多了深度信息這一個(gè)維度,但也就是這一個(gè)差別,導(dǎo)致了3D圖像相比于2D圖像所多出的信息不是一星半點(diǎn)。因此,倘若想要從2D圖像生成3D圖像,其難度之大可想而知。
為此,谷歌在18年10月18日申請(qǐng)了一項(xiàng)名為“通過(guò)渲染許多3D視圖來(lái)學(xué)習(xí)重構(gòu)3D形狀”的發(fā)明專利(申請(qǐng)?zhí)枺?01880030823.5),申請(qǐng)人為谷歌有限責(zé)任公司。
根據(jù)該專利目前公開的資料,讓我們一起來(lái)看看這項(xiàng)從2D圖像到3D圖像的生成方法吧。
該技術(shù)中,主要使用了3D估計(jì)器神經(jīng)網(wǎng)絡(luò),如上圖,為使用3D估計(jì)器神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì)圖像中描繪的面部的3D形狀和紋理,并基于估計(jì)的3D形狀和紋理生成替身的系統(tǒng)示意圖。用戶通過(guò)上傳面部圖像105,系統(tǒng)100可以對(duì)照片進(jìn)行處理后生成替身115,這里所說(shuō)的替身也就是用戶的3D畫像。
在具體的過(guò)程中,照片首先由面部識(shí)別引擎110進(jìn)行處理,從而生成用戶的面部圖像特征112,該特征在3D估計(jì)神經(jīng)網(wǎng)絡(luò)中被處理,基于圖像特征估計(jì)照片中描繪的用戶面部的3D形狀和紋理,從而生成形狀紋理數(shù)據(jù)122。
最后,數(shù)據(jù)122被發(fā)送到3D渲染引擎130中,基于用戶獨(dú)特的面部形狀、紋理特征來(lái)生成用戶的3D畫像,并且為了做到更加真實(shí),渲染引擎可以給出特定的視圖,視圖中融合了相機(jī)角度、光照以及視場(chǎng)的估計(jì)信息,可以讓生成的圖像質(zhì)量更加逼真。
如上圖,為用于用戶3D渲染圖像生成的3D估計(jì)器神經(jīng)網(wǎng)絡(luò)220的系統(tǒng)框圖,整個(gè)系統(tǒng)的結(jié)構(gòu)還是相當(dāng)復(fù)雜的,從圖中我們可以看到這種神經(jīng)網(wǎng)絡(luò)是如何工作的。根據(jù)目前的技術(shù)來(lái)看,訓(xùn)練3D估計(jì)器神經(jīng)網(wǎng)絡(luò)通常有兩個(gè)困難:第一,由3D對(duì)象的圖像和那些3D對(duì)象的3D形狀和紋理組成的訓(xùn)練對(duì)通常是有限的并且難以獲得;第二,訓(xùn)練3D估計(jì)器神經(jīng)網(wǎng)絡(luò)可能經(jīng)常導(dǎo)致3D估計(jì)器神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)欺騙。
因此,該專利發(fā)明的整個(gè)網(wǎng)絡(luò)分為了監(jiān)督訓(xùn)練回路以及無(wú)監(jiān)督訓(xùn)練回路,通過(guò)二者相結(jié)合的方式,在完全訓(xùn)練階段期間,僅利用無(wú)監(jiān)督訓(xùn)練回路,從而允許估計(jì)神經(jīng)網(wǎng)絡(luò)輸出更快地收斂。
因?yàn)闊o(wú)監(jiān)督訓(xùn)練回路可以在預(yù)訓(xùn)練階段和完全訓(xùn)練階段兩者期間使用,所以從無(wú)監(jiān)督訓(xùn)練回路開始,在預(yù)訓(xùn)練之后,完全訓(xùn)練可以對(duì)大量迭代和大量樣本單獨(dú)利用無(wú)監(jiān)督訓(xùn)練回路,來(lái)改進(jìn)3D估計(jì)神經(jīng)網(wǎng)絡(luò)估計(jì)圖像中的對(duì)象的3D形狀和紋理的能力。
最后,是這種無(wú)監(jiān)督訓(xùn)練回路訓(xùn)練的流程圖,系統(tǒng)首先需要獲取對(duì)象圖像的第一圖像特征,該特征就是上述所說(shuō)用戶面部信息的原始數(shù)據(jù),其次,將這種第一圖像特征提供給3D估計(jì)器神經(jīng)網(wǎng)絡(luò)并獲取3D形狀和紋理。
根據(jù)這些形狀和紋理進(jìn)行3D渲染,并從多個(gè)3D視圖中導(dǎo)出第二圖像特征,基于圖像特征的損失函數(shù)計(jì)算損失,以知道神經(jīng)網(wǎng)絡(luò)進(jìn)行反向傳播以得到更加良好的效果以及減少圖像生成的損失。
以上就是谷歌發(fā)明的利用2D圖像生成3D圖像的專利技術(shù),從2D到3D圖像的轉(zhuǎn)換過(guò)程中,由于2D圖像缺少了很多信息,因此該技術(shù)利用3D估計(jì)神經(jīng)網(wǎng)絡(luò)進(jìn)行信息的補(bǔ)全以及預(yù)測(cè),并融合了拍攝角度、光照等信息,讓生成的3D圖像看起來(lái)更加逼真,這種技術(shù)對(duì)于三維建模以及工業(yè)應(yīng)用都具有極大的指導(dǎo)意義。
關(guān)于嘉德
深圳市嘉德知識(shí)產(chǎn)權(quán)服務(wù)有限公司由曾在華為等世界500強(qiáng)企業(yè)工作多年的知識(shí)產(chǎn)權(quán)專家、律師、專利代理人組成,熟悉中歐美知識(shí)產(chǎn)權(quán)法律理論和實(shí)務(wù),在全球知識(shí)產(chǎn)權(quán)申請(qǐng)、布局、訴訟、許可談判、交易、運(yùn)營(yíng)、標(biāo)準(zhǔn)專利協(xié)同創(chuàng)造、專利池建設(shè)、展會(huì)知識(shí)產(chǎn)權(quán)、跨境電商知識(shí)產(chǎn)權(quán)、知識(shí)產(chǎn)權(quán)海關(guān)保護(hù)等方面擁有豐富的經(jīng)驗(yàn)。
責(zé)任編輯:tzh
-
3D
+關(guān)注
關(guān)注
9文章
2878瀏覽量
107555 -
谷歌
+關(guān)注
關(guān)注
27文章
6168瀏覽量
105397 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100778
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論