還記得“殺馬特教授”黎顥嗎?他將率領(lǐng)團(tuán)隊(duì)在下周召開(kāi)的SIGGRAPH中展示一項(xiàng)黑科技“paGAN”:每秒1000幀掃描,用單幅照片實(shí)時(shí)生成超逼真動(dòng)畫(huà)人物頭像。連GAN發(fā)明人Ian Goodfellow也忍俊不禁,殺馬特教授和他的新技術(shù)究竟如何?
還記得此前新智元報(bào)道過(guò)的“殺馬特教授”黎顥(Hao Li)嗎?
看到這張照片,應(yīng)該能夠喚起你的記憶了吧?
是的,黎顥目前正身陷法律訴訟,他被自己成立的計(jì)算機(jī)視覺(jué)創(chuàng)業(yè)公司Pinscreen的前CTO起訴,后者指控黎顥學(xué)術(shù)造假,向計(jì)算機(jī)圖形頂會(huì)SIGGRAPH 2017提交人為篡改的圖像和結(jié)果。
黎顥否認(rèn)指控,現(xiàn)在案件正在進(jìn)行中。
不過(guò),我們今天要講的主題,是關(guān)于下周即將召開(kāi)的最新一屆SIGGRAPH 2018,黎顥的團(tuán)隊(duì)提交了一項(xiàng)命名獨(dú)特且效果驚人的工作,連GAN的發(fā)明人Ian Goodfellow今天都發(fā)推表示,“最受期待的一個(gè)GAN命名已經(jīng)被人用了:paGAN(有“異教徒”之意)”。
實(shí)際上,早在2014年SIGGRAPH Asia,新智元?jiǎng)?chuàng)始人兼CEO楊靜就曾采訪黎顥。黎顥從2013年起在美國(guó)南加大計(jì)算機(jī)系擔(dān)任助理教授,從事計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺(jué)相關(guān)領(lǐng)域的研究。2010年在蘇黎世聯(lián)邦理工學(xué)院獲取博士學(xué)位,2011年在哥倫比亞大學(xué)和普林斯頓大學(xué)從事博士后研究,隨后在工業(yè)光魔(Industrial Light & Magic)擔(dān)任研發(fā)主管,并于2014年在維塔數(shù)碼(Weta Digital)任訪問(wèn)教授。
黎顥曾在喬治盧卡斯工作室工作,為電影《星球大戰(zhàn)》提供特效技術(shù)。后來(lái)他與人聯(lián)合創(chuàng)辦了計(jì)算機(jī)視覺(jué)創(chuàng)業(yè)公司Pinscreen,并擔(dān)任CEO。
在下周SIGGRAPH 2018的Real Time Live活動(dòng)中,黎顥率領(lǐng)的Pinscreen團(tuán)隊(duì)將展示“革命性”的新機(jī)器學(xué)習(xí)技術(shù),“打破了傳統(tǒng)的模型、紋理、光線和渲染管道”,日前科技作者M(jìn)ike Seymour一篇發(fā)表在 fxguide.com 的文章如此介紹。
“重要的是,Pinscreen的研究工作既適合高端(基于PC)又適合移動(dòng)端(基于手機(jī)/移動(dòng)電話)……通過(guò)在這兩個(gè)層面開(kāi)展工作,團(tuán)隊(duì)提供即時(shí)應(yīng)用程序,同時(shí)還致力于重要的長(zhǎng)期基礎(chǔ)研究”,Mike Seymour如此寫道,并且親自進(jìn)行了測(cè)試。
接下來(lái),我們就來(lái)看看殺馬特教授和他的團(tuán)隊(duì)即將提交的最新成果吧。
每秒1000幀:根據(jù)普通照片實(shí)時(shí)生成高清逼真動(dòng)畫(huà)人臉
下面就是 fxguide 的Mike Seymour,左邊是蘋果iPhone手機(jī)拍攝的短視頻,右邊則是實(shí)時(shí)渲染的CGI,在原視頻人臉上蓋了一層數(shù)碼生成的3D數(shù)碼人臉(hockey mask)。這個(gè)過(guò)程中只涉及邊緣修飾的少量微調(diào),其他全部自動(dòng)生成。
Pinscreen的團(tuán)隊(duì)正在使用單幅jpeg圖像構(gòu)建他們的3D臉部模型,而且采用端到端的方法。
首先,模型識(shí)別照片中的人臉,然后生成一個(gè)合理的3D網(wǎng)格。
不僅如此,模型能以1000 fps的速度對(duì)人臉進(jìn)行跟蹤。手機(jī)攝像頭的速度一般只有30或60 fp,但黎顥解釋說(shuō):“這讓我們有足夠的時(shí)間在同一幀中追蹤多個(gè)面孔?!?/p>
這個(gè)追蹤器名為VGPT,代表“Veli Goodo Pace Tracka”,由Pinscreen的Shunsuke Saito領(lǐng)導(dǎo)開(kāi)發(fā)。在搭載英偉達(dá)1080P GPU的PC上,VGPT以1000 fps的速度運(yùn)行。在iPhone X上,它的運(yùn)行速度接近60~90 fps。
“我們的解決方案的另一個(gè)巨大優(yōu)勢(shì)是它占用的內(nèi)存非常少,沒(méi)有I/O的核心只有5M,而且完全基于深度學(xué)習(xí)。”黎顥表示。
該解決方案基于直接推理,不像傳統(tǒng)的面部跟蹤器那樣,后者是直接跟蹤特征或標(biāo)記。較舊的跟蹤器會(huì)使用基于AAM模型的面部標(biāo)記檢測(cè)器,速度慢很多。而這個(gè)新的解決方案,根據(jù)黎顥的說(shuō)法,提供了“相對(duì)于相機(jī)的3D精確頭部模型,以及微表情測(cè)量工具和所有重要的東西”。
VGPT使用一組ML工具進(jìn)行非常快速的無(wú)標(biāo)記跟蹤。不僅跟蹤效果好,魯棒性也高。如果一個(gè)人在攝像頭前移動(dòng),部分遮擋了相機(jī),程序?qū)⒑芸熘匦芦@得面部信息并繼續(xù)工作。
VGPT將是Pinscreen下周在SIGGRAPH實(shí)時(shí)現(xiàn)場(chǎng)演示中最強(qiáng)大的新工具。
Pinscreen拍攝了《洛杉磯時(shí)報(bào)》記者David Pierson的一張照片作為輸入(左),并制作了他的3D頭像(右)。 這個(gè)生成的3D人臉通過(guò)黎顥的動(dòng)作(中)生成表情。這個(gè)視頻是6個(gè)月前制作的,Pinscreen團(tuán)隊(duì)稱其內(nèi)部早就超越了上述結(jié)果。
paGAN:逼真動(dòng)畫(huà)人物生成對(duì)抗網(wǎng)絡(luò)
那么,再來(lái)看關(guān)鍵的“paGAN”,這個(gè)縮寫代表“Photoreal Avatar Generative Adversarial Network”,逼真動(dòng)畫(huà)人物生成對(duì)抗網(wǎng)絡(luò),這就是Pinscreen系統(tǒng)的“渲染器”。
到目前為止,對(duì)動(dòng)畫(huà)頭像或數(shù)字人物進(jìn)行傳統(tǒng)建模、紋理、燈光和渲染的方式都需要構(gòu)建非常高質(zhì)量的數(shù)據(jù)集。這通常需要很多高質(zhì)量的掃描圖像。多個(gè)圖像開(kāi)始,以構(gòu)建攝影測(cè)量樣式解決方案,具有非常多高質(zhì)量、符合攝影測(cè)量法的人臉掃描圖像。
為了解決這個(gè)問(wèn)題,黎顥和Pinscreen團(tuán)隊(duì)跳過(guò)了傳統(tǒng)的管道方法,他們認(rèn)為“用ML采用”不等于“用CGI模擬”。
Pinscreen團(tuán)隊(duì)的目標(biāo)是將采樣的面部重新點(diǎn)亮,生成動(dòng)畫(huà),旋轉(zhuǎn),然后放置在模擬的3D環(huán)境中,就像3D CGI頭像一樣。但是,整個(gè)過(guò)程沒(méi)有使用正常的建模/紋理/照明和渲染管道。
結(jié)果看起來(lái)很真實(shí),就像照片投影在與之匹配的幾何體之上,但它僅在靜態(tài)時(shí)才起作用。
Pinscreen想要看看他們是否可以使用最先進(jìn)的深度生成模型來(lái)實(shí)現(xiàn)一個(gè)通用的解決方案。“這是一種非常特殊的深度學(xué)習(xí)網(wǎng)絡(luò),它包含了生成對(duì)抗網(wǎng)絡(luò)。它們具有生成逼真的2D圖像的能力。我們知道GAN可以生成逼真的2D圖像,許多其他研究人員已經(jīng)證明了這一點(diǎn),”黎顥解釋道。
“在Ian Goodfellow的開(kāi)創(chuàng)性工作和NVIDIA的大量精彩工作的基礎(chǔ)上,已經(jīng)證明可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)合成高質(zhì)量的面部圖像?!崩桀椇退膱F(tuán)隊(duì)想知道他們是否可以將這項(xiàng)新技術(shù)轉(zhuǎn)變?yōu)橐环N面部渲染引擎(facial render engine),從而跳過(guò)建模,紋理和光照的pineline。它不只是從正確的角度來(lái)“渲染”臉部,而是使用GAN ML。
paGAN是一個(gè)ML GAN網(wǎng)絡(luò),它基于簡(jiǎn)單模型的輸入(具有少量紋理)來(lái)呈現(xiàn)照片級(jí)真實(shí)的面部,這個(gè)簡(jiǎn)單模型來(lái)自他們的VGPT。
paGAN擅長(zhǎng)處理眼睛和嘴巴。
當(dāng)用于面部處理時(shí),GAN的問(wèn)題在于輸出是2D的,并且“vanilla GAN”非常難以控制?!坝肎AN會(huì)得到任意的斑點(diǎn),這些斑點(diǎn)很難控制。我們用paGAN能夠確保輸出看起來(lái)是照片級(jí)真實(shí)的,特別是口腔和眼睛區(qū)域,”黎顥說(shuō)。早期的研究也做了類似的工作,但沒(méi)有包括眼睛或嘴巴。
“嘴巴,以及舌頭在嘴巴里的移動(dòng)方式,這是paGAN做得非常好?!?/p>
徹底解析神奇技術(shù):重新定向
由于人臉可以由單個(gè)的Jpeg制成,并且所有表情都來(lái)自新的表情源,所以這種技術(shù)非常適合以一種可信的、合理的方式將別人的臉制成動(dòng)畫(huà)。
在查看結(jié)果時(shí),要注意被操作的臉(右邊)是由一張jpeg圖像(頂部)僅由一個(gè)靜止的jpeg圖像(頂部)制成,而沒(méi)有其他FACS輸入或特殊掃描。所有的表情都是從expression source轉(zhuǎn)移到目標(biāo)人物。
混合方案和光照問(wèn)題
由于黎顥的背景和在ILM、Weta Digital等公司的經(jīng)歷,他知道自己的面部工具需要在有V-Ray、Manuka或RenderMan的pipeline上工作?!澳壳拔覀兊慕鉀Q方案是一種混合方案,效果非常好。我們將在SIGGRAPH的Real Time Live上演示的解決方案就是這樣的?!?/p>
黎顥補(bǔ)充說(shuō):“照片真實(shí)級(jí)別的人臉是很好的技術(shù)演示,但是在Pinscreen,我們想讓人們使用它……如果你有3D的臉或頭像,你需要有一個(gè)環(huán)境,否則就沒(méi)有意義了?!?/p>
出于這個(gè)原因,paGAN面不僅能夠從任何角度“渲染”,而且還能夠任何光照?qǐng)鼍爸小颁秩尽薄?“在環(huán)境中,意味著可以從任意方向和該環(huán)境的任何照明條件下渲染”。
Pinscreen目前通過(guò)解決面部的照片級(jí)反照率來(lái)解決這個(gè)問(wèn)題(不是100%的反照率,但很接近)?!笆褂眠@種反照率紋理,再加上其他使用傳統(tǒng)計(jì)算機(jī)圖形的pipeline,可以獲得令人信服的結(jié)果?!崩桀椪f(shuō)。
在用戶測(cè)試中部署時(shí),CGI人臉的得分接近完美。在相似的背景下以相同方式和真實(shí)面部一起呈現(xiàn)時(shí),CGI人臉幾乎能夠完美地欺騙用戶。
手機(jī)級(jí)別
下圖是以單張Jpeg作為輸入,到最終在iPhone上呈現(xiàn)角色輸出的過(guò)程。下面是Mike Seymour的源圖像。 雖然Pinscreen團(tuán)隊(duì)可以使用深度相機(jī),但這款iphone實(shí)時(shí)制作出來(lái)的Mike最終效果是使用單個(gè)Jpeg圖像而不是深度相機(jī)傳感器數(shù)據(jù)制作的。 圖像是在iPhone X上拍攝的,但使用的是非深度感應(yīng)相機(jī)。
“在Pinscreen公司,我們有兩個(gè)團(tuán)隊(duì),一個(gè)團(tuán)隊(duì)專注于制作人們喜歡玩的東西,同時(shí)我們有一個(gè)非常強(qiáng)大的研究小組。這個(gè)小組關(guān)注的是基本問(wèn)題?!?/p>
Pinscreen想讓3D avatar大眾化,但是人們?yōu)槭裁葱枰?
黎顥說(shuō):“首先,大多數(shù)游戲都是3D游戲,而且大部分游戲中都涉及到人類的形象或造型,但我認(rèn)為它可以走得更遠(yuǎn)?!?/p>
他看到的應(yīng)用是3D通信(Skype的3D版本),“在某種程度上,我覺(jué)得你就在我們辦公室。這是人們真正合作,共同完全解決問(wèn)題,交流思想和情感的唯一途徑。這是建立信任的關(guān)鍵?!?/p>
他說(shuō),他期待有一天我們真的覺(jué)得在使用3D頭像的時(shí)候會(huì)有人在房間里,但“要做到這一點(diǎn),你不能依靠游戲或電影研究工作室來(lái)捕捉你的面部數(shù)據(jù),它必須是足夠聰明的,能夠基于有限的知識(shí)來(lái)構(gòu)建所有這些復(fù)雜性?!边@就是為什么Pinscreen對(duì)于先進(jìn)的ML和專業(yè)的GAN如此看重的原因。
輸入Charlie的單張圖片,并在iPhone上生成3D人臉的過(guò)程
Pinscreen的策略是先構(gòu)建“游戲”級(jí)的移動(dòng)平臺(tái),“但這是我們能夠用來(lái)部署我們正在開(kāi)發(fā)的所有新研究技術(shù)的平臺(tái)”。
團(tuán)隊(duì)訓(xùn)練一個(gè)GAN,可以在不同的視點(diǎn)中產(chǎn)生表情,給出一個(gè)中性的jpeg臉部圖像。 在右側(cè),來(lái)自訓(xùn)練網(wǎng)絡(luò)的提取紋理用于在手機(jī)上實(shí)時(shí)驅(qū)動(dòng)動(dòng)態(tài)avatar
我們使用大量的人臉圖像數(shù)據(jù)集來(lái)訓(xùn)練網(wǎng)絡(luò),該數(shù)據(jù)集可以捕獲各種目標(biāo)和表情。由于移動(dòng)端的硬件限制,paGAN無(wú)法以令人滿意的幀速率在當(dāng)前的iPhone硬件上運(yùn)行。網(wǎng)絡(luò)被訓(xùn)練好之后,可用于生成一小組固定關(guān)鍵表情的紋理,然后可以將這一固定或稀疏的集合擴(kuò)展為基于面部動(dòng)作編碼系統(tǒng)(FACS)的一組混合形狀UV紋理圖。計(jì)算完成后,就可以用這些紋理來(lái)創(chuàng)建具有多種表情的頭像,所有這些都由跟蹤器在手機(jī)上以30幀的速率實(shí)時(shí)驅(qū)動(dòng)的。它可以在線實(shí)時(shí)合成每幀紋理。這種移動(dòng)“壓縮”是Pinscreen解決方案的重要組成部分,也將在SIGGRAPH上展示。
paGAN的效果非常好,不僅可以用于制作面部表情,還可以用于制作嘴巴和眼睛。該程序?yàn)樯深^像制作了300張嘴巴的紋理和20個(gè)預(yù)先計(jì)算出的眼睛紋理。然后利用paGAN的眼睛紋理來(lái)近似模擬所有觀察方向。利用移動(dòng)設(shè)備(例如iPhoneX)上的視線跟蹤器,程序可以選擇最接近真實(shí)的視線,并以此選擇合適的眼睛,組合到面部。
頭發(fā)
最后一部分是頭像的頭發(fā)。上面的示例框架使用Pinscreen的數(shù)據(jù)驅(qū)動(dòng)毛發(fā)解決方案。這個(gè)方案是黎顥及其團(tuán)隊(duì)之前發(fā)布的?,F(xiàn)在,該團(tuán)隊(duì)正在研究一種新型頭發(fā)模擬器,但由于這種新方法剛剛提交發(fā)表,因此不會(huì)出現(xiàn)在今年的實(shí)時(shí)現(xiàn)場(chǎng)演示中。新的系統(tǒng)屬于另一種端到端神經(jīng)學(xué)習(xí)解決方案,將始終根據(jù)訓(xùn)練數(shù)據(jù)生成合理的頭發(fā)模型。
2014年SIGGRAPH Asia訪談:特立獨(dú)行的殺馬特教授
正如前文所說(shuō),實(shí)際上,在2014年SIGGRAPH Asia上,新智元?jiǎng)?chuàng)始人兼CEO楊靜就對(duì)黎顥進(jìn)行了采訪。
視效藝術(shù)家通常通過(guò)粘在人臉或身體上的3D感應(yīng)球進(jìn)行表情捕捉,黎顥的技術(shù)突破在于使用了深度傳感器(微軟的Xbox體感游戲使用了同樣的技術(shù))簡(jiǎn)化了這一過(guò)程,當(dāng)裝有深度傳感器的攝像機(jī)對(duì)準(zhǔn)演員的臉時(shí),黎顥的軟件會(huì)自動(dòng)分析其面部表情的變化,并立刻將這些表情套用到動(dòng)畫(huà)人物上。
黎教授于2013年發(fā)表的SIGGRAPH論文所提出的技術(shù),在皮克斯和工業(yè)光魔進(jìn)行過(guò)一些實(shí)驗(yàn)測(cè)試,用于前期的pre-visualization。技術(shù)結(jié)合利用了深度相機(jī)(Kinect)和視頻攝像頭捕捉到的信息,也就是同時(shí)使用了深度和顏色信息。
在光影工業(yè),黎顥主要是針對(duì)幾部《星球大戰(zhàn)》(Star Wars)臉部捕捉技術(shù)的研發(fā)。主要工作是提供臉部和身體捕捉和重建技術(shù)的效率,希望能夠在拍攝的同時(shí)能盡可能看到最后合成的效果,也就是盡可能做到實(shí)時(shí)。
-
3D
+關(guān)注
關(guān)注
9文章
2894瀏覽量
107654 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4774瀏覽量
100898 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1698瀏覽量
46032
原文標(biāo)題:被控造假、打人之后要一雪前恥!“殺馬特”華裔教授推出paGAN,GoodFellow也點(diǎn)贊
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論