用 AI 生成逼真三維物體模型并不像人們以為的那么困難。
近日,在 NeurIPS 2018 會(huì)議上接收的論文“視覺對(duì)象網(wǎng)絡(luò):圖像生成與分離式的3D表示”中,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(MIT CSAIL)和 Google 的研究人員介紹了能創(chuàng)造出有逼真紋理和形狀的一個(gè)生成式 AI 系統(tǒng)。
該系統(tǒng)是視覺對(duì)象網(wǎng)絡(luò)(VON)系統(tǒng),不僅可以生成比某些最先進(jìn)的方法更真實(shí)的圖像,還可以進(jìn)行形狀和紋理編輯、視點(diǎn)轉(zhuǎn)換以及其他三維調(diào)整。
“現(xiàn)代深層生成模型學(xué)會(huì)了合成逼真的圖像,”研究人員寫道,“但大多數(shù)計(jì)算模型只專注于生成 2D 圖像,而忽略了 3D 世界的美好......這種視角不可避免地限制了它們?cè)谠S多領(lǐng)域的實(shí)際應(yīng)用,例如合成數(shù)據(jù)生成、機(jī)器人學(xué)習(xí)、虛擬現(xiàn)實(shí)和游戲行業(yè)。”
視覺對(duì)象網(wǎng)絡(luò)系統(tǒng)則可以通過合成三維形狀和二維圖像來解決這個(gè)問題,類似于研究人員所稱的“分離式的對(duì)象表示”。圖像生成模型被分解為三種因素:形狀、視點(diǎn)和紋理,另外,在計(jì)算“2.5 D”草圖和添加紋理之前,它需要學(xué)習(xí)合成三維形狀。
重要的是,由于這三個(gè)因素是條件獨(dú)立的,所以模型不需要二維和三維形狀之間的配對(duì)數(shù)據(jù)。這使得團(tuán)隊(duì)能夠在大規(guī)模的二維圖像和三維形狀集上進(jìn)行訓(xùn)練,如 Pix3D,Google 圖像搜索和ShapeNet,后者包含 55 個(gè)對(duì)象類別的數(shù)千個(gè) CAD 模型。
為了讓 VON 系統(tǒng)學(xué)習(xí)如何生成自己的形狀,該團(tuán)隊(duì)在上述三維形狀數(shù)據(jù)集上訓(xùn)練了一個(gè)生成式對(duì)抗網(wǎng)絡(luò)(GAN) 。而紋理生成被歸類了到另一個(gè)基于 GAN 的神經(jīng)網(wǎng)絡(luò)。
經(jīng)過大約兩到三天的訓(xùn)練,AI 系統(tǒng)始終如一地生成了令人信服的 128 x 128 x 128 模型,具有優(yōu)異的反射率、環(huán)境照明和反照率(一種漫射光的度量)。
為了評(píng)估圖像生成模型,團(tuán)隊(duì)計(jì)算了用于生成三維模型的 Fréchet Inception Distance(弗雷歇初始距離,F(xiàn)ID)——一種與人類感知相關(guān)的度量。此外,他們還向亞馬遜 Mechanical Turk 上的五名測(cè)試者展示了由 VON 和其他最先進(jìn)模型生成的 200 對(duì)圖像,這些受試者需要在這些圖像中選擇更真實(shí)的結(jié)果。
VON 的表現(xiàn)非常出色。它與所有 AI 模型相比具有最低的 FID 值,并且 Mechanical Turk 的受訪者表示更喜歡 VON 生成的 74% 到 85%的圖像。
研究人員未來將專注于從粗糙到精細(xì)化的建模,以產(chǎn)生更高分辨率的生成形狀和圖像,并將紋理分解為光照和外觀(lighting and appearance),并合成自然場(chǎng)景。
“我們的主要想法是將圖像生成過程分解為形狀、視點(diǎn)和紋理三種因素,”Google 團(tuán)隊(duì)寫道,“這種分離式 3D 表示使我們能夠在對(duì)抗學(xué)習(xí)框架下從 3D 和 2D 視覺數(shù)據(jù)集合中學(xué)習(xí)模型。與現(xiàn)有的 2D 生成模型相比,我們的模型合成了更逼真的圖像,它還可以做到以前的 2D 方法也無法實(shí)現(xiàn)的各種 3D 操作?!?/p>
近年來,GAN 的研究突飛猛進(jìn),特別是在機(jī)器視覺領(lǐng)域。
Google 的 DeepMind 子公司在 10 月推出了一個(gè)基于 GAN 的系統(tǒng),以此創(chuàng)建出令人信服的食物、風(fēng)景、肖像和動(dòng)物照片。9 月,Nvidia 的研究人員開發(fā)了一種 AI 模型,可以生成腦癌的合成掃描圖像,8 月,卡內(nèi)基梅隆大學(xué)的一個(gè)團(tuán)隊(duì)演示了 AI 可以將人們已存的動(dòng)作和面部表情轉(zhuǎn)換成另一張照片或視頻中的目標(biāo)對(duì)象。最近,愛丁堡大學(xué)感知研究所和天文學(xué)研究所的科學(xué)家設(shè)計(jì)了一種至少可以產(chǎn)生高分辨率星系圖像的 GAN。
-
人工智能
+關(guān)注
關(guān)注
1793文章
47590瀏覽量
239472 -
GaN
+關(guān)注
關(guān)注
19文章
1953瀏覽量
73882 -
計(jì)算機(jī)科學(xué)
+關(guān)注
關(guān)注
1文章
144瀏覽量
11380 -
生成式AI
+關(guān)注
關(guān)注
0文章
512瀏覽量
515
原文標(biāo)題:AI做不了“真”3D圖像?試試Google的新生成模型
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論