這個被稱為 QUEEN 的模型支持低帶寬、高質量的場景生成,可用于工業(yè)機器人操作、3D 視頻會議和直播等流媒體應用。
NVIDIA Research 與馬里蘭大學合作開發(fā)的 AI 模型 QUEEN 將內容直播帶入全新的維度。有了 QUEEN,直播自由視角視頻有望成為現實,也就是說,觀眾可以從任意視角體驗 3D 場景。
QUEEN 可用于構建沉浸式直播應用,例如教授烹飪等技能、讓球迷就像身處球場一樣從任意視角觀看比賽,或者在工作場所舉行更加身臨其境的視頻會議。QUEEN 也能用于工業(yè)環(huán)境,幫助操作員遠程操控倉庫或工廠中的機器人。
該模型在本月于溫哥華舉行的年度 AI 盛會 NeurIPS 上進行了展示。
NVIDIA 研究總監(jiān)、杰出研究科學家 Shalini De Mello 表示:“要想近乎實時地直播自由視角視頻,就必須同時重建和壓縮 3D 場景。QUEEN 巧妙地平衡了壓縮率、視覺質量、編碼時間和渲染時間等各種因素,從而創(chuàng)建了一個優(yōu)化的流程,為視覺質量和可直播性樹立了新的標桿?!?/p>
通過減少渲染量,重復利用
和循環(huán)利用等方式實現高效直播
自由視角視頻通常使用來自各種攝像角度拍攝的視頻素材制作而成,例如多機位拍攝、倉庫里的一組安防攝像頭或是辦公室中的視頻會議攝像頭系統(tǒng)。
以往用于生成自由視角視頻的 AI 方法要么占用過多的內存用于直播,要么為了縮小文件大小而犧牲視覺質量,而 QUEEN 在兩者之間取得了平衡。即便是存在火花、火焰或毛茸動物的動態(tài)場景,也能輕松地把高質量的視頻內容從主機服務器傳輸到客戶端設備。而且,與之前的方法相比,它還能夠更快地渲染視頻內容以進行直播。
在大多數真實環(huán)境中,場景中的許多元素都是靜止不動的。在視頻中,這意味著某個幀中的大部分像素與其它幀中的像素相同。為了節(jié)省計算時間,QUEEN 跟蹤并重復使用這些靜態(tài)區(qū)域的渲染,從而騰出資源來專注于重建那些隨時間變化的內容。
研究人員使用了一塊 NVIDIA Tensor Core GPU,在多個基準測試中評估 QUEEN 的性能,他們發(fā)現該模型的表現在一系列指標上都優(yōu)于目前最先進的在線自由視角視頻制作方法。對于從不同角度拍攝同一場景的 2D 視頻,通常只需不到五秒的訓練時間,就能以每秒約 350 幀的速度渲染自由視角視頻。
同時實現高速度和高視覺質量,這意味著音樂會和體育賽事轉播能夠提供身臨其境般的虛擬現實體驗或比賽集錦的即時回放。
在倉庫場景中,機器人操作員可以利用 QUEEN,在操縱物體時更精準地測量深度。在視頻會議中,例如 SIGGRAPH 和 NVIDIA GTC 大會上的 3D 視頻會議 demo,它可以幫助主持人演示烹飪或折紙等場景,同時讓觀眾可以選擇最適合自己學習的視角。
NVIDIA 為 NeurIPS 制作和撰寫了 50 多篇學術海報和論文,QUEEN 是其中之一。這些學術海報和論文介紹了在模擬、機器人和醫(yī)療等領域具有巨大應用前景的開創(chuàng)性 AI 研究成果。
首次介紹了 GAN 模型的論文《生成式對抗網絡》在 NeurIPS 2024 大會上榮獲“時間檢驗獎”。該論文被引用超過 8.5 萬次,其中一個作者是 NVIDIA 的杰出工程師 Bing Xu。
NVIDIA Research 在全球擁有數百名科學家和工程師,專注于 AI、計算機圖形學、計算機視覺、自動駕駛汽車和機器人等領域的研究,歡迎點擊“閱讀原文”查看他們的最新研究成果 。
大型語言模型、模擬和建模、邊緣 AI 等領域的學術科研人員可以申請 NVIDIA 學術資助計劃。
-
NVIDIA
+關注
關注
14文章
5045瀏覽量
103326 -
AI
+關注
關注
87文章
31223瀏覽量
269579 -
模型
+關注
關注
1文章
3277瀏覽量
48957
原文標題:NVIDIA Research 開發(fā)的模型實現了快速、高效的動態(tài)場景重建
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論