大家好,我是郭建非,是3DNR團(tuán)隊(duì)的負(fù)責(zé)人與 tech leader。
在本文中,我將為大家介紹團(tuán)隊(duì)過(guò)去一年中圍繞「神經(jīng)渲染技術(shù)在自動(dòng)駕駛領(lǐng)域應(yīng)用」的一些思考和研究成果。并且向大家展示團(tuán)隊(duì)自研的現(xiàn)實(shí)級(jí)三維重建/編輯/仿真渲染框架——neuralsim 的部分階段性成果。該框架將在不久的將來(lái)完成開(kāi)源。
1、自動(dòng)駕駛傳感器仿真,是落地的下一步棋
1.1、為什么需要自動(dòng)駕駛傳感器仿真?
近年來(lái),自動(dòng)駕駛技術(shù)發(fā)展突飛猛進(jìn),很多在實(shí)驗(yàn)室中的實(shí)驗(yàn)性項(xiàng)目已經(jīng)逐步走向市場(chǎng)大眾。然而時(shí)至今日,自動(dòng)駕駛技術(shù)仍然難以做到完全無(wú)人,甚至無(wú)法保證基本的安全性。究其根本,在于真實(shí)道路環(huán)境無(wú)限豐富,無(wú)法被窮舉、預(yù)測(cè),存在著大量難以預(yù)測(cè)的邊界難例(Hard Corner Case)。
為了解決這個(gè)問(wèn)題,大量自動(dòng)駕駛公司通過(guò)海量路測(cè)來(lái)提高對(duì)邊界難例的覆蓋率,企圖通過(guò)遍歷這些危險(xiǎn)場(chǎng)景來(lái)提高自動(dòng)駕駛系統(tǒng)的實(shí)際安全性能。然而,想要通過(guò)路測(cè)來(lái)獲得足夠多的邊界難例,往往需要付出巨大的代價(jià):難例的觸發(fā)效率呈邊際效應(yīng)遞減,而每一次觸發(fā)都有可能導(dǎo)致一起重大交通事故。 這些客觀條件都在限制著我們利用真實(shí)車輛在真實(shí)世界中完成海量路測(cè)和邊界難例的覆蓋挖掘,而通過(guò)「仿真測(cè)試」以低成本獲得邊界難例數(shù)據(jù)逐漸被認(rèn)為是解決自動(dòng)駕駛落地難的不二法門。 早期的仿真測(cè)試主要針對(duì)決策規(guī)劃模塊進(jìn)行,然而邊界難例不止存在于決策規(guī)劃系統(tǒng)中,感知系統(tǒng)也仍然存在無(wú)窮無(wú)盡的邊界難例。 2016年,一輛搭載著自動(dòng)駕駛系統(tǒng)的汽車徑直撞向了一輛半掛卡車,駕駛員當(dāng)場(chǎng)殞命。事后調(diào)查分析,自動(dòng)駕駛系統(tǒng)誤以為白色的卡車車廂是明亮的天空,導(dǎo)致避障算法失效并產(chǎn)生災(zāi)難性后果。足以窺見(jiàn)針對(duì)感知系統(tǒng)的傳感器數(shù)據(jù)仿真有時(shí)甚至比決策規(guī)劃仿真更為重要。
1.2、基于神經(jīng)渲染的重建、編輯與傳感器仿真框架
目前已有諸如 VTD、51 SimOne、NVIDIA DRIVE Sim 等針對(duì)感知系統(tǒng)的仿真和測(cè)試平臺(tái)。這些平臺(tái)大多基于游戲引擎,利用基于物理渲染的傳統(tǒng)圖形學(xué)管線進(jìn)行仿真渲染。然而,這種傳統(tǒng)方法存在一系列問(wèn)題。
由于圖形和當(dāng)前游戲管線的技術(shù)限制,構(gòu)建超真實(shí)的 3D 場(chǎng)景成本高昂,自動(dòng)化程度低,需要大量人力的介入,且周期較長(zhǎng)。針對(duì)這個(gè)問(wèn)題,部分方案引入攝影測(cè)量等傳統(tǒng) 3D 重建技術(shù),來(lái)重建真實(shí)城市道路場(chǎng)景,但受限于自動(dòng)駕駛真實(shí)數(shù)據(jù)本身的特點(diǎn),難以完成全場(chǎng)景的稠密重建和高質(zhì)量的真實(shí)渲染,需要進(jìn)行人為二次修正和加工。此外,也有通過(guò)過(guò)程生成等 3D 圖形技術(shù),實(shí)現(xiàn)自動(dòng)化生成城市場(chǎng)景的方式,但這種方式同樣在復(fù)雜性、真實(shí)度上都和真實(shí)駕駛場(chǎng)景存在較大差異。
為此,3DNR團(tuán)隊(duì)(基礎(chǔ)算法)聯(lián)合商湯絕影團(tuán)隊(duì)(業(yè)務(wù)拓展優(yōu)化),構(gòu)建了一套直接利用真實(shí)車端數(shù)據(jù)的隱式重建和編輯仿真方案。我們的方案將實(shí)車采集的多視圖像、激光雷達(dá)數(shù)據(jù)轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)表示的3D場(chǎng)景庫(kù)和3D數(shù)字資產(chǎn)庫(kù),基于隱表面神經(jīng)體渲染技術(shù),能夠渲染以假亂真的相機(jī)圖像、激光雷達(dá)點(diǎn)云,實(shí)現(xiàn)「現(xiàn)實(shí)級(jí)」三維重建和仿真。并且,場(chǎng)景中的要素能夠自由地組合控制、軌跡編輯,泛化出新的場(chǎng)景,通過(guò)批量仿真渲染,可以產(chǎn)生高一致性的2D/3D傳感器數(shù)據(jù)和2D/3D/4D語(yǔ)義真值標(biāo)注,以服務(wù)于感知系統(tǒng)的測(cè)試和訓(xùn)練,邁向自動(dòng)駕駛數(shù)據(jù)閉環(huán)。我們致力于通過(guò)直接實(shí)現(xiàn)盡可能全自動(dòng)的、高一致性的三維重建,大大減少渲染仿真數(shù)據(jù)與真實(shí)場(chǎng)景的領(lǐng)域差異,通過(guò) sim≈real 的思路直接避免 sim2real 的 gap。
整體工作思路
在下文中,我將依次按照「照片級(jí)前背景聯(lián)合重建」「高效的傳感器仿真&語(yǔ)義真值仿真」「場(chǎng)景編輯與數(shù)據(jù)閉環(huán)」 三個(gè)章節(jié)的順序來(lái)介紹我們的工作。
整體成果概覽2、照片級(jí)前背景聯(lián)合隱式三維重建2.1、多幀多模態(tài)多視圖三維重建我們可以直接利用實(shí)車采集數(shù)據(jù),實(shí)現(xiàn)對(duì)真實(shí)街景的前背景聯(lián)合三維重建。為了方便與學(xué)界業(yè)界交流對(duì)比,我們直接使用 waymo 公開(kāi)的學(xué)術(shù)開(kāi)源數(shù)據(jù)集 waymo-perception 數(shù)據(jù)集進(jìn)行效果展示。
waymo-perception 數(shù)據(jù)集包含約800個(gè)訓(xùn)練集序列,我們挑選了其中3-4個(gè)序列進(jìn)行展示;每個(gè)序列長(zhǎng)度200幀左右,我們使用序列原始數(shù)據(jù)中的 前向、左前、右前 3個(gè)機(jī)位的環(huán)視相機(jī)圖像數(shù)據(jù) 和頂部激光雷達(dá)數(shù)據(jù),以及對(duì)應(yīng)的傳感器內(nèi)外參數(shù)據(jù)、自車位姿數(shù)據(jù)進(jìn)行多視圖三維重建。 以 waymo perception - 405841xx 序列為例:
waymo perception -segment405841xx
原始數(shù)據(jù)(節(jié)選)真值
我們的多視圖重建方法主要利用多幀圖像數(shù)據(jù)進(jìn)行;激光雷達(dá)數(shù)據(jù)主要是為地面的高度和三維結(jié)構(gòu)補(bǔ)充必要的消歧信息,因此并不要求激光雷達(dá)涵蓋相機(jī)的全部視野。對(duì)于我們使用的 waymo-perception 數(shù)據(jù)集而言,在上圖中也可以看到,如果將激光雷達(dá)點(diǎn)云投射到相機(jī)圖像中,激光雷達(dá)點(diǎn)云只涵蓋了圖像下半部分的視野。
下面的視頻展示了該場(chǎng)景下我們的隱式三維重建的質(zhì)量和神經(jīng)渲染的效果??梢钥吹?,我們的方法能夠?qū)崿F(xiàn)以假亂真的三維重建和渲染質(zhì)量。
如果場(chǎng)景中包含動(dòng)態(tài)要素(如他車、行人),大多數(shù)傳統(tǒng)的針對(duì)純靜態(tài)場(chǎng)景的多視圖重建工作將不再適用。但是,如果說(shuō)「沒(méi)有街景背景不能稱作自動(dòng)駕駛」,那么「沒(méi)有豐富的前景物體參與交通更不能被稱之為自動(dòng)駕駛」。
因此,我們顯式地區(qū)分構(gòu)建了整體的靜態(tài)背景和動(dòng)態(tài)前景兩套3D表征,并設(shè)計(jì)了一套高效的多物體可微渲染框架。并且,我們通過(guò)預(yù)先針對(duì)前景物體類別構(gòu)建3D類別先驗(yàn)的方式,解決了前景少視角重建的病態(tài)問(wèn)題,實(shí)現(xiàn)了只依賴三維跟蹤檢測(cè)框標(biāo)注(3D Tracklet)、無(wú)需2D圖像分割標(biāo)注,即可對(duì)場(chǎng)景中的前景和背景進(jìn)行聯(lián)合的隱式三維重建。
以 waymo perception - 767010xxx 序列為例:
waymo perception-segment 767010xx
原始數(shù)據(jù)(節(jié)選)真值 在下面的視頻中可以看到,即使面對(duì)包含動(dòng)態(tài)前景物體的復(fù)雜街景數(shù)據(jù)序列,我們可以在前景和背景均達(dá)到較高的重建質(zhì)量和渲染效果。
下面的視頻中,展示了在更多的 waymo-perception 序列場(chǎng)景下,我們的方法在完整重建后再回放渲染的效果:
2.2、背景新視角合成
除了回放再渲染外,驗(yàn)證重建質(zhì)量的另一個(gè)重要方式是新視角合成(Novel View Synthesis)。在下面的視頻中,展示了讓自車在重建好的場(chǎng)景中自由地螺旋穿梭前進(jìn)時(shí)的多模態(tài)傳感器渲染仿真效果:
2.3、前景新視角合成不止背景,重建好的前景也可以進(jìn)行新視角合成,如下圖所示:
自動(dòng)駕駛場(chǎng)景下,前景物體普遍面臨觀測(cè)視角少、不均勻的問(wèn)題。直接對(duì)前景物體從頭開(kāi)始(learn from scratch)的三維重建是個(gè)高度病態(tài)的問(wèn)題。
因此,我們利用開(kāi)源類別泛化多視數(shù)據(jù)集,預(yù)先構(gòu)建了三維生成模型(3DGAN),構(gòu)建了車輛、行人等交通參與要素的3D形狀與外觀的類別先驗(yàn)。這樣的生成模型可以理解為一個(gè) 「實(shí)例個(gè)數(shù)=∞」 的數(shù)字資產(chǎn)庫(kù)(i.e. 每一個(gè)隨機(jī)噪聲對(duì)應(yīng)一個(gè)獨(dú)特實(shí)例)。
之后,即可利用三維生成模型的逆向過(guò)程,在這個(gè)數(shù)字資產(chǎn)庫(kù)中可微地 “檢索” 出一個(gè)符合實(shí)際觀測(cè)的實(shí)例,完成少視角重建過(guò)程,如下圖所示。
在我們的實(shí)際應(yīng)用中,上述前景重建過(guò)程和背景的重建是同時(shí)進(jìn)行的。得益于先前構(gòu)建的3D類別先驗(yàn),我們的方法能夠只依賴3D跟蹤檢測(cè)框標(biāo)注進(jìn)行前背景聯(lián)合重建,而不需要圖像實(shí)例分割。 3、高效的傳感器仿真和語(yǔ)義真值仿真不同于 NeRF 原始的體密度 (Volume density)形狀表達(dá),我們選擇和拓展了 對(duì)仿真編輯和圖形引擎更友好的 SDF 隱表面表示 (e.g. NeuS),使得場(chǎng)景的3D幾何表示有明確的表面定義和深度概念。
在下圖中,我們利用相機(jī)對(duì)隱表面神經(jīng)渲染得到的深度,直接對(duì)相機(jī)2D像素升維得到3D點(diǎn)云,然后將每一幀的相機(jī)圖像對(duì)應(yīng)的3D點(diǎn)云拼接在一起,進(jìn)行可視化展示??梢钥吹?,我們的隱表面神經(jīng)渲染技術(shù)具有較高的多視一致性。
利用重建得到的高一致性的3D場(chǎng)景幾何與3D場(chǎng)景外觀,我們得以仿真高度真實(shí)的新傳感器的數(shù)據(jù)。
3.1、相機(jī)模型仿真渲染利用重建好的場(chǎng)景,我們可以仿真渲染新的相機(jī)模型的圖像。在下圖中,展示了我們將 waymo 序列原相機(jī)的 51° 的視場(chǎng)角逐漸提升到 109°,并加上一定的超廣角畸變后,對(duì)一個(gè)109°視場(chǎng)角的超廣角相機(jī)模型進(jìn)行仿真渲染。
3.2、激光雷達(dá)模型仿真渲染 利用與現(xiàn)實(shí)高度一致的場(chǎng)景與物體的3D幾何形狀,我們可以對(duì)不同于原序列的新的激光雷達(dá)模型進(jìn)行仿真渲染。在下面的視頻中,我們對(duì)重建好的 waymo-767010xxx 序列,仿真渲染8款不同于原序列的激光雷達(dá)模型的點(diǎn)云數(shù)據(jù)。這些新的激光雷達(dá)模型包括機(jī)械旋轉(zhuǎn)式、固態(tài)、棱鏡式等多種不同類型。 3.3、2D/3D/4D語(yǔ)義仿真得益于我們?cè)O(shè)計(jì)的多物體渲染框架,我們還能夠仿真產(chǎn)生多幀的2D/3D的語(yǔ)義真值標(biāo)注。
根據(jù)相機(jī)渲染過(guò)程中,逐2D像素對(duì)應(yīng)的3D光線和不同物體3D幾何的相交關(guān)系和順序,可以渲染產(chǎn)生圖像2D實(shí)例分割標(biāo)注;同理,根據(jù)激光雷達(dá)渲染過(guò)程中,逐LiDAR光束和不同物體3D幾何的相交關(guān)系和順序,可以渲染產(chǎn)生激光雷達(dá)點(diǎn)云3D實(shí)例分割標(biāo)注。
在下面的視頻中,針對(duì)重建好的 waymo-767010xxx 序列,展示了我們方法仿真渲染圖像、仿真渲染多幀圖像2D實(shí)例分割標(biāo)注、仿真渲染多幀LiDAR 3D實(shí)例分割 (i.e. 4D語(yǔ)義標(biāo)注)的效果:
3.4、高效渲染與仿真我們?cè)谏窠?jīng)體渲染底層技術(shù)棧中鋪設(shè)了若干基礎(chǔ)建設(shè)式的創(chuàng)新。我們吸納了分層局部隱式神經(jīng)表征的思想,設(shè)計(jì)了分塊表征與塊間連續(xù)性保證算法,并利用自舉更新的占用格對(duì)體渲染中的光線采樣過(guò)程進(jìn)行加速。這些創(chuàng)新除了讓我們達(dá)到前文所展示的重建質(zhì)量外,還使得我們的神經(jīng)渲染過(guò)程達(dá)到接近實(shí)時(shí)的效率。
下圖簡(jiǎn)單展示了我們的重建方法的分塊表征以及可鼠標(biāo)交互的實(shí)時(shí)神經(jīng)渲染:
我們針對(duì)前景設(shè)計(jì)的3DGAN模型同樣實(shí)現(xiàn)了一套利用占用格的批量(batched)光線采樣加速算子,顯著提升了前背景多物體聯(lián)合渲染的效率。 4、場(chǎng)景編輯與數(shù)據(jù)閉環(huán)4.1、隨意的可控顯式/隱式編輯我們的方法將前景和背景都解耦地視作獨(dú)立的可渲染物體。因此,我們可以對(duì)場(chǎng)景中的任一物體模型進(jìn)行隨意的操作和編輯,如下面視頻所示: 除了前面展示的針對(duì)場(chǎng)景中物體的顯式編輯方式外,我們也初步探索了在語(yǔ)義層面的風(fēng)格化編輯,如下面視頻所示: 4.2、軌跡編輯與場(chǎng)景泛化結(jié)合動(dòng)態(tài)場(chǎng)景庫(kù)和軌跡規(guī)劃算法,我們還可以對(duì)場(chǎng)景中的自車和他車進(jìn)行更符合常理的編輯,即仿真新的駕駛行為。
在下面的視頻中,我們依次展示了「左車突然切入(cut in)」,「右車闖紅燈」,「前車急停追尾」 3種不同的場(chǎng)景編輯方式,渲染其在“平行宇宙” 中的虛擬交通事件。
以其中的「左車突然切入(cut in)」場(chǎng)景為例,下面這個(gè)視頻展示了對(duì)編輯后的場(chǎng)景的多模態(tài)傳感器仿真結(jié)果:(相機(jī)、深度傳感器、8款激光雷達(dá)模型)
在今后,我們可以更進(jìn)一步地利用實(shí)車數(shù)據(jù)擴(kuò)充3D場(chǎng)景庫(kù)、擴(kuò)充前景數(shù)字資產(chǎn)庫(kù),從而泛化出更多新的物體組合和場(chǎng)景序列。搭配前述 「一次重建、終身受用」的新相機(jī)、新激光雷達(dá)模型仿真渲染范式,我們的方案最終能夠按照給定的場(chǎng)景、給定的物體組合、給定的軌跡、給定的傳感器模型定制化地渲染出海量高度真實(shí)的傳感器數(shù)據(jù)和語(yǔ)義真值,從而逐漸達(dá)成我們構(gòu)想的通過(guò)傳感器數(shù)據(jù)仿真大大提升自動(dòng)駕駛測(cè)試效率和質(zhì)量的愿景。 5、寫在最后神經(jīng)渲染技術(shù)作為新興領(lǐng)域,成功地構(gòu)建起了場(chǎng)景表征與成像過(guò)程之間的可微橋梁,能夠很好地結(jié)合不同領(lǐng)域的先驗(yàn)知識(shí),使得圖像相關(guān)的機(jī)器學(xué)習(xí)研究逐漸走向可解釋、可控可編輯的3D語(yǔ)義時(shí)代。我們堅(jiān)信,不僅僅是自動(dòng)駕駛,神經(jīng)渲染技術(shù)將在越來(lái)越多的領(lǐng)域走向成熟應(yīng)用。
我們3DNR團(tuán)隊(duì)將繼續(xù)以自動(dòng)駕駛數(shù)據(jù)閉環(huán)為理想目標(biāo),沿途下蛋挖掘攻關(guān)基礎(chǔ)學(xué)術(shù)關(guān)鍵點(diǎn),并秉持開(kāi)源和共享精神,與學(xué)界業(yè)界共同學(xué)習(xí)共同進(jìn)步。
審核編輯 :李倩
-
傳感器
+關(guān)注
關(guān)注
2551文章
51192瀏覽量
754358 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24727 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13844瀏覽量
166564
原文標(biāo)題:神經(jīng)渲染技術(shù)在自動(dòng)駕駛領(lǐng)域應(yīng)用
文章出處:【微信號(hào):3D視覺(jué)工坊,微信公眾號(hào):3D視覺(jué)工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論