谷歌藝術(shù)與文化推出新作品,手機上體驗宇宙大爆炸,并可以作為背景進行自拍。而谷歌博客解釋了如何使用ARCore和機器學(xué)習(xí),只用一個手機攝像頭就可以實現(xiàn)給自拍加AR特效的工作原理。
谷歌與歐洲研究機構(gòu)CERN合作創(chuàng)建了一個增強現(xiàn)實應(yīng)用程序,可以讓用戶通過手機體驗宇宙大爆炸Big Bang,感受上帝創(chuàng)世紀時候的宏偉壯闊。
應(yīng)用程序?qū)Ыo你一場360度的奇幻旅程,從宇宙誕生開始,到第一顆恒星誕生,直到我們的太陽系,以及地球的出現(xiàn)。
更有意思的是,你還可以以大爆炸作為背景,進行自拍!可以說是超炫酷了。各大應(yīng)用商店搜索Google Arts & Culture下載。
如果你使用的是Android手機,你需要確認一下是否裝了ARCore。
ARCore是谷歌推出的搭建增強現(xiàn)實(Augmented Reality,簡稱 AR)應(yīng)用程序的軟件平臺,類似蘋果的ARKit,它可以利用云軟件和設(shè)備硬件的進步,將數(shù)字對象放到現(xiàn)實世界中。
用ARCore實現(xiàn)AR效果
增強現(xiàn)實,是一種實時地計算攝影機影像的位置及角度并加上相應(yīng)圖像的技術(shù),這種技術(shù)的目標是在屏幕上把虛擬世界套在現(xiàn)實世界并進行互動。
這種技術(shù)最早于1990年提出。隨著隨身電子產(chǎn)品運算能力的提升,增強現(xiàn)實的用途越來越廣。比如下面這個動圖,通過AR設(shè)備你可以看到實際并不存在的藍色光圈。
AR已經(jīng)被廣泛應(yīng)用于自拍、短視頻、直播app中,可以實現(xiàn)一些好玩的效果。而其中最關(guān)鍵的挑戰(zhàn)在于將虛擬內(nèi)容適當(dāng)?shù)劐^定到現(xiàn)實世界中。這個過程需要一套獨特的感知技術(shù),能夠跟蹤每個微笑,皺眉或傻笑背后的高動態(tài)表面幾何。
所以今天我們就為大家介紹一下,開發(fā)者如何借助最新版本ARCore的全新Augmented Faces API,使機器學(xué)習(xí)(ML)來推斷近似的3D表面幾何形狀,從而只需要一個攝像機輸入,無需專用的深度傳感器就可以實現(xiàn)給自拍添加動畫特效,比如添加眼鏡、3D帽子等物品。
3D網(wǎng)格及其實現(xiàn)的一些效果
這種方法提供了實時速度的AR效果,使用TensorFlow Lite進行移動CPU推理或其可用的新移動GPU功能。
此技術(shù)與YouTube Stories的新creator effect效果相同,并且通過最新的ARCore SDK版本和ML Kit Face Contour Detection API,可供更廣泛的開發(fā)人員社區(qū)使用。
自拍AR的ML pipeline
我們的ML pipeline由兩個一起工作的實時深度神經(jīng)網(wǎng)絡(luò)模型組成。一個探測器,在整個圖像上運行,并計算面部位置;一個通用3D網(wǎng)格模型,在這些位置上運行并通過回歸預(yù)測近似表面幾何。
精確地裁剪面部可以大大減少對共同數(shù)據(jù)增強的需求,例如由旋轉(zhuǎn),平移和比例變化組成的仿射變換。
它允許網(wǎng)絡(luò)將其大部分容量用于坐標預(yù)測準確度,這對于實現(xiàn)虛擬內(nèi)容的正確錨定至關(guān)重要。
一旦需要的位置被裁剪,網(wǎng)格網(wǎng)絡(luò)每次僅應(yīng)用于單個幀,使用窗口平滑以便在面部靜止時減少噪聲,同時避免在快速移動時滯后。
3D網(wǎng)格
對于我們的3D網(wǎng)格,我們采用了傳遞學(xué)習(xí)并訓(xùn)練了一個具有多個目標的網(wǎng)絡(luò)。
網(wǎng)絡(luò)同時預(yù)測合成、渲染數(shù)據(jù)上的3D網(wǎng)格坐標,以及類似于MLKit提供的帶注釋的真實世界數(shù)據(jù)的2D語義輪廓。
由此產(chǎn)生的網(wǎng)絡(luò)不僅在合成上,而且在現(xiàn)實世界數(shù)據(jù)上為我們提供了合理的3D網(wǎng)格預(yù)測。
所有模型都接受來自地理上不同數(shù)據(jù)集的數(shù)據(jù)培訓(xùn),隨后在平衡,多樣化的測試集上進行測試,以獲得定性和定量性能。
3D網(wǎng)格網(wǎng)絡(luò)接收裁剪的視頻幀作為輸入。它不依賴于額外的深度輸入,因此它也可以應(yīng)用于預(yù)先錄制的視頻。
該模型輸出3D點的位置,以及在輸入中存在并合理對齊的面部概率。一種常見的替代方法是預(yù)測每個地標的2D熱圖,但它不適合深度預(yù)測,并且對于這么多點具有高計算成本。
通過迭代引導(dǎo)和細化預(yù)測來進一步提高模型的準確性和魯棒性。這樣我們就可以將我們的數(shù)據(jù)集增長到越來越具有挑戰(zhàn)性的案例,例如鬼臉,斜角和遮擋。
數(shù)據(jù)集增強技術(shù)還擴展了可用的地面實況數(shù)據(jù),開發(fā)了模型對相機缺陷或極端光照條件等工件的彈性。
數(shù)據(jù)集擴展和改進pipeline
我們使用TensorFlow Lite進行設(shè)備上的神經(jīng)網(wǎng)絡(luò)推理。新推出的GPU后端加速可在可用的情況下提升性能,并顯著降低功耗。
此外,為了涵蓋廣泛的消費類硬件,我們設(shè)計了各種具有不同性能和效率特性的模型架構(gòu)。
較輕的網(wǎng)絡(luò)最重要的區(qū)別是殘余塊布局和可接受的輸入分辨率(最輕的模型中為128x128像素,而最復(fù)雜的模型中為256x256)。
我們還改變了層數(shù)和子采樣率(輸入分辨率隨網(wǎng)絡(luò)深度減小的速度)。
每幀的推理時間:CPU與GPU
這些優(yōu)化的結(jié)果是使用較輕型號的顯著加速,AR效果質(zhì)量的降低最小。
比較最復(fù)雜(左)和最輕的模型(右)。
在輕型模型上,時間一致性以及唇部和眼睛跟蹤略微降低
這些努力的最終結(jié)果是通過以下方式為用戶體驗在YouTube,ARCore和其他客戶中提供令人信服的,逼真的自拍AR效果:
通過環(huán)境映射模擬光反射,實現(xiàn)眼鏡的逼真渲染
通過將虛擬對象陰影投射到面網(wǎng)格上來實現(xiàn)自然光照
對面部遮擋建模以隱藏面部后面的虛擬對象部分,例如虛擬眼鏡,如下圖所示
YouTube Stories基于3D網(wǎng)格的逼真虛擬眼鏡
此外,我們通過以下方式實現(xiàn)高度逼真的妝效:
建模在嘴唇和嘴唇上應(yīng)用的鏡面反射
通過使用亮度感知材料進行面部繪畫
案例研究將不同光照條件下5個主題的真實化妝與AR妝容進行比較。
未來,谷歌計劃將此技術(shù)擴展到更多谷歌產(chǎn)品中。
-
手機
+關(guān)注
關(guān)注
35文章
6881瀏覽量
157677 -
谷歌
+關(guān)注
關(guān)注
27文章
6171瀏覽量
105484 -
Ar
+關(guān)注
關(guān)注
24文章
5098瀏覽量
169659
原文標題:138億年在手中!谷歌用手機體驗宇宙大爆炸,還教你用機器學(xué)習(xí)實現(xiàn)AR自拍特效
文章出處:【微信號:worldofai,微信公眾號:worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論