電子發(fā)燒友網(wǎng)報道(文/吳子鵬)近日,一款名為DUSt3R的AI新工具在GitHub上爆火。DUSt3R能夠在短短2秒鐘內(nèi)通過僅有2張圖片完成3D 重建,讓許多網(wǎng)友大呼驚奇,甚至認(rèn)為這比之前熱門的Sora更加實用。
有考古從業(yè)者稱,在考古現(xiàn)場,構(gòu)建3D模型是非常必要且難度很大的工作,通過DUSt3R快速重建出土文物的3D形狀,是一個非常高效的方式。同時,DUSt3R在游戲和建筑等領(lǐng)域也有非常多的應(yīng)用場景。
目前,DUSt3R在GitHub上的熱度非常高,已經(jīng)排名在GitHub熱榜的第二名。根據(jù)網(wǎng)友實測,只需要拍攝兩張照片,DUSt3R就可以完成家庭廚房或者摩托車的3D建模,并且除了3D圖,還有深度圖、置信度圖和點云圖。
圖源:naverlabs.com
圖源:naverlabs.com
DUSt3R突破3D建模技術(shù)屏障
實際上,早在一兩年前GPT剛剛興起的時候,就有人討論過通過AI模型工具來完成3D建模,不過當(dāng)時的試驗結(jié)果表明,這是一項非常難的工作。
根據(jù)當(dāng)時的討論,AIGC用于3D內(nèi)容生成,主要有三個方面的挑戰(zhàn)。其一是原始訓(xùn)練素材庫需要比較高質(zhì)量的2D圖片,且需要的數(shù)量比較大,并輔助大量的計算資源來配合。不過,受限于當(dāng)時的算法模型,最終出來的效果都不太好。
其二是算法模型本身,在GPT熱潮初期,文生文,以及文生圖,都是2D層面的探索,生成復(fù)雜的3D模型需要更加復(fù)雜的算法。有算法工程師指出,這是完全不一樣的算法模型,需要從底層重新梳理。
其三是質(zhì)量缺陷?;诋?dāng)時的算法和算力設(shè)施,生成3D模型并非不能完成的任務(wù),不過完成的質(zhì)量是非常糟糕的,需要進(jìn)行大量的后期處理和優(yōu)化,往往這個修復(fù)的工作量是超出傳統(tǒng)建模的工作量的。
隨后產(chǎn)業(yè)界也有很多嘗試,比如GET3D和3D-GAN等工具可以生成網(wǎng)格(Mesh)的3D模型,這些工具大部分在 ShapeNet等3D數(shù)據(jù)集上進(jìn)行訓(xùn)練,具有一定的質(zhì)量,不過基本是單體建模,且復(fù)雜度不高。目前,有很多3D工具是基于differentiable rasterizer基礎(chǔ)算法的。
在OpenAI的工具體系中,OpenAI Point·E其實也是一款3D生成工具,不過并不是原生的3D,而是從2D升維到3D,也就是先通過文字提示借助2D diffusion 模型生成2D圖像,然后用3D點云的diffusion模型對圖片進(jìn)行升維。谷歌的DreamFusion和英偉達(dá)的Magic3D也是屬于這個類型。
當(dāng)然,上述工具都有一個通病,那就是幾乎都需要半小時以上的時間才能夠完成復(fù)雜3D模型的建立,和DUSt3R之間有很大的差距。
據(jù)悉,DUSt3R帶來了一個3D模型生成的新范式,不需要任何相機校準(zhǔn)或視點姿勢的先驗信息,就可完成任意圖像的密集或無約束3D重建。傳統(tǒng)的3D AI工具,通常需要MVS估計相機參數(shù),并在3D空間中對相應(yīng)的像素進(jìn)行三角測量。不過,DUSt3R并不需要這些。如下圖所示,DUSt3R能夠基于一組具有未知相機姿態(tài)和內(nèi)在特征的照片,生成對應(yīng)的一組點圖,并給出相機參數(shù)、像素對應(yīng)關(guān)系、深度圖等重要參數(shù)。因此這款工具不僅降低了輸入數(shù)據(jù)的門檻,同時讓輸出數(shù)據(jù)質(zhì)量大幅提升,輸出數(shù)據(jù)需要的時間大幅縮短。
圖源:naverlabs.com
DUSt3R論文作者表示,DUSt3R統(tǒng)一了單圖3D生成和雙圖3D生成的技術(shù)路徑,在提供兩個以上圖像的情況下,DUSt3R帶來了更加有效的全局對齊策略,該策略在一個共同的參考框架中展現(xiàn)出所有成對的點云圖。
綜合而言,DUSt3R具備以下幾個特點:支持多視圖立體重建,無需相機校準(zhǔn)信息,支持更加有效的全局對齊策略,提供3D模型和深度信息,并可以恢復(fù)像素匹配和相機信息,無疑這是一款強大的3D AI工具。
更重要的是,DUSt3R基于標(biāo)準(zhǔn)的變壓器編碼器和解碼器就可以工作,讓用戶能夠更加容易地利用這個強大的3D AI工具。如果DUSt3R能夠順利落地,那么醫(yī)療、游戲、影視、建筑、產(chǎn)品設(shè)計和虛擬現(xiàn)實等領(lǐng)域?qū)⒋蟠笫芤妗?br />
國產(chǎn)公司在3D AI中的機會
DUSt3R強大的性能讓很多網(wǎng)友直呼:忘掉Sora吧,DUSt3R才是未來。實際上,這確實也是AI大模型一個迭代的方向。從ChatGPT代表的文生文,到DALL?E代表的文生圖,再到Sora代表的文生視頻,多模態(tài)大模型的發(fā)展方向就是不斷挖掘多模態(tài)大模型的潛力,生成更加復(fù)雜的信息。中泰證券在相關(guān)文章中直言,繼文本、代碼、圖片、視頻之后,下一個有可能實現(xiàn)突破的模態(tài)大概率是3D,“SORA之后的下一步:文生3D”。
那么,面對市場大趨勢,國內(nèi)公司該如何捕捉商機呢?匯總多份3D AI研報可以發(fā)現(xiàn),國內(nèi)目前在文生3D方面具有一定的技術(shù)儲備,也有一些代表公司。
比如掌趣科技,該公司是一家提供3D引擎的公司。2023年11月,掌趣科技與LAYABOX達(dá)成戰(zhàn)略合作協(xié)議。雙方將共同致力于打造一款具有創(chuàng)新意義的AI游戲引擎,為廣大游戲開發(fā)者提供更加智能、自動化的解決方案,推動游戲產(chǎn)業(yè)技術(shù)革新,共建高質(zhì)量的AIGC開發(fā)生態(tài)體系。而游戲是3D模型重要的應(yīng)用領(lǐng)域。
還有凡拓數(shù)創(chuàng)、絲路視覺、風(fēng)語筑等3D內(nèi)容提供商,也有一定的技術(shù)儲備。以凡拓數(shù)創(chuàng)為例,該公司以“AI+3D”為方向,致力于展館數(shù)字化革新,結(jié)合數(shù)字技術(shù)與文化創(chuàng)意, 以總體設(shè)計、3D數(shù)字內(nèi)容制作、軟件開發(fā)、系統(tǒng)集成等數(shù)字展館一體化服務(wù),未來AIGC、AI算法、BI大數(shù)據(jù)、WEB3D等前沿技術(shù)是凡拓數(shù)創(chuàng)的技術(shù)方向,數(shù)字孿生、虛擬人、知識圖譜等產(chǎn)品則是產(chǎn)品方向。
另外,像恒信東方已經(jīng)開始嘗試將GPT、擴(kuò)散模型應(yīng)用與2D概念設(shè)計和分鏡工作流、3D引擎和其他制作工具API融入3D內(nèi)容創(chuàng)作,也有文生3D方面的技術(shù)儲備。
除了上述有望直接參與文生3D落地的,國內(nèi)在CAX領(lǐng)域、BIM領(lǐng)域的相關(guān)公司也有望從潮流中受益,比如中望軟件、索辰科技、浩辰軟件等CAX工具服務(wù)商,可以給相關(guān)產(chǎn)品帶來專業(yè)的技術(shù)支持。
結(jié)語
DUSt3R驚艷的面世,讓我們進(jìn)一步見識了多模態(tài)大模型的實力,繼文本、代碼、圖片、視頻之后,文生3D是重要的產(chǎn)業(yè)發(fā)展方向,賦能醫(yī)療、游戲、影視、建筑、產(chǎn)品設(shè)計和虛擬現(xiàn)實等領(lǐng)域發(fā)展。對于國內(nèi)公司而言,目前基本處于市場外圍,還需要進(jìn)一步實現(xiàn)核心技術(shù)攻關(guān)。
-
3D
+關(guān)注
關(guān)注
9文章
2878瀏覽量
107534
發(fā)布評論請先 登錄
相關(guān)推薦
評論