75 年前,寶麗來相機(jī)拍出了第一張即拍照片,實(shí)現(xiàn)了用逼真 2D 圖像快速捕捉 3D 場景的技術(shù)突破。如今,AI 研究者正在進(jìn)行相反的研究——在幾秒鐘內(nèi)將靜止的圖像集合轉(zhuǎn)換成數(shù)字 3D 場景。
這項(xiàng)被稱為逆向繪制的流程利用 AI 逼真模擬現(xiàn)實(shí)世界中的光線特征,使研究者能夠使用從不同角度拍攝的 2D 圖像重建 3D 場景。NVIDIA Research 團(tuán)隊(duì)開發(fā)出可以瞬間完成這一任務(wù)的方法,構(gòu)建了首個(gè)將超快神經(jīng)網(wǎng)絡(luò)訓(xùn)練和快速渲染相結(jié)合的模型。
NVIDIA 將這種方法應(yīng)用于被稱為神經(jīng)輻射場(NeRF)的新技術(shù)。該結(jié)果被稱為“即時(shí) NeRF”(Instant NeRF),是迄今為止最快的 NeRF 技術(shù),它在某些情況中能夠?qū)⑺俣忍嵘^ 1000 倍。該模型只需要幾秒鐘就能訓(xùn)練出幾十張靜態(tài)照片及其拍攝角度數(shù)據(jù),并在瞬間渲染產(chǎn)生的 3D 場景。
NVIDIA 負(fù)責(zé)圖形學(xué)研究的副總裁 David Luebke 表示:“如果把多邊形網(wǎng)格這樣的傳統(tǒng) 3D 表示方式比作矢量圖像,那么 NeRF 就像是位圖圖像——它們可以密集捕捉光線在物體或場景中的輻射方式。從這個(gè)意義上來說,即時(shí) NeRF 對 3D 的重要性不亞于數(shù)碼相機(jī)和 JPEG 壓縮對 2D 攝影的重要性,它極大地提高了 3D 捕捉和分享的速度、便利性和范圍。”
NVIDIA GTC 上的一場分會(huì)展示了如何使用即時(shí) NeRF 為虛擬世界創(chuàng)建虛擬化身或場景、以 3D 方式捕捉視頻會(huì)議參與者及其環(huán)境或者為 3D 數(shù)字地圖重建場景。
為了向早期的寶麗來照片致敬,NVIDIA Research 重現(xiàn)了 Andy Warhol 拍攝即拍照片時(shí)的標(biāo)志性照片,并使用即時(shí) NeRF 將其轉(zhuǎn)換成 3D 場景。
什么是 NeRF?
NeRF 使用神經(jīng)網(wǎng)絡(luò)來表示和渲染基于 2D 圖像集的逼真 3D 場景。
為 NeRF 采集數(shù)據(jù)有點(diǎn)像紅毯攝影師從各個(gè)角度拍攝盛裝打扮的名人。該神經(jīng)網(wǎng)絡(luò)還需要幾十張從環(huán)繞場景的多個(gè)位置拍攝的圖像以及每次拍攝時(shí)的相機(jī)位置。
在包含人或其他移動(dòng)元素的場景中,這些照片拍得越快越好。如果在 2D 圖像捕捉過程中出現(xiàn)過多的運(yùn)動(dòng),AI 生成的 3D 場景就會(huì)變得模糊不清。
NeRF 可以填補(bǔ)這方面的空白,它可以訓(xùn)練小型神經(jīng)網(wǎng)絡(luò),通過預(yù)測光線從 3D 空間任何一點(diǎn)向任何方向輻射時(shí)的顏色來重建該場景。該技術(shù)甚至可以解決遮擋問題,比如當(dāng)某些圖像中的物體被其他圖像中的柱子等障礙物擋住時(shí)。
使用即時(shí) NeRF 實(shí)現(xiàn) 1000 倍加速
人類天生就會(huì)根據(jù)局部視圖估計(jì)物體的深度和外觀,但這對 AI 來說卻很艱巨。
根據(jù)視圖創(chuàng)建的復(fù)雜性和分辨率,使用傳統(tǒng)方法創(chuàng)建 3D 場景需要耗費(fèi)數(shù)小時(shí)甚至更長時(shí)間。AI 能夠加快這項(xiàng)工作的速度。早期的 NeRF 模型在幾分鐘內(nèi)就能渲染出沒有偽影的清晰場景,但仍需要通過數(shù)小時(shí)的訓(xùn)練。
即時(shí) NeRF 將渲染時(shí)間縮短了多個(gè)數(shù)量級。它依靠的是 NVIDIA 開發(fā)的“多分辨率哈希網(wǎng)格編碼技術(shù)”。這項(xiàng)技術(shù)經(jīng)過優(yōu)化后,可在 NVIDIA GPU 上高效運(yùn)行。研究者可以通過新的輸入編碼方法,利用快速運(yùn)行的微型神經(jīng)網(wǎng)絡(luò)獲得高質(zhì)量的結(jié)果。
該模型由 NVIDIA CUDA 工具包和微型 CUDA 神經(jīng)網(wǎng)絡(luò)庫所開發(fā)。由于是輕量級的神經(jīng)網(wǎng)絡(luò),它可以在單個(gè) NVIDIA GPU 上訓(xùn)練和運(yùn)行,并且在內(nèi)置 NVIDIA Tensor 核的顯卡上達(dá)到最快運(yùn)行速度。
這項(xiàng)技術(shù)可用于訓(xùn)練機(jī)器人和自動(dòng)駕駛汽車,通過捕捉現(xiàn)實(shí)世界中物體的 2D 圖像或視頻片段來理解物體的大小和形狀。在建筑和娛樂行業(yè),該技術(shù)能夠快速生成真實(shí)環(huán)境的數(shù)字場景表示,創(chuàng)作者可在此基礎(chǔ)上進(jìn)行修改和構(gòu)建。
除了 NeRFs 之外,NVIDIA 研究人員還在探索如何利用這種輸入編碼技術(shù)來加速多個(gè) AI 領(lǐng)域的發(fā)展,包括強(qiáng)化學(xué)習(xí)、語言翻譯和通用深度學(xué)習(xí)算法。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4773瀏覽量
100861 -
NVIDIA
+關(guān)注
關(guān)注
14文章
4996瀏覽量
103211 -
虛擬世界
+關(guān)注
關(guān)注
0文章
81瀏覽量
5829
發(fā)布評論請先 登錄
相關(guān)推薦
評論