动漫成a人片在线观看无码,18岁内射欧美在线观看,三级黄片全裸黄片免费看

0. 筆者個(gè)人體會

在自動駕駛中，感知、表示和重建動態(tài)場景對于代理程序理解并與其環(huán)境進(jìn)行交互至關(guān)重要。傳統(tǒng)的仿真框架大多強(qiáng)依賴于識別跟蹤等感知模塊的有監(jiān)督學(xué)習(xí)，這樣在數(shù)據(jù)集層面上限制了模型表示各種復(fù)雜場景的能力。這幾年中NeRF（神經(jīng)輻射場）的爆炸式發(fā)展也逐漸融入了自動駕駛行業(yè)，然而當(dāng)前端到端的以NeRF為基礎(chǔ)自動駕駛方針框架并不多。

本文將介紹最近英偉達(dá)開源的框架EmerNeRF。不同于之前依然需要實(shí)例分割標(biāo)簽的框架，EmerNeRF進(jìn)一步擺脫了圖像以外訓(xùn)練標(biāo)簽的需求。這里也推薦工坊推出的新課程《深度剖析面向自動駕駛領(lǐng)域的車載傳感器空間同步（標(biāo)定）》。

1. 效果展示

EmerNeRF 可以模擬車靜止、高速時(shí)的場景，在相機(jī)曝光不匹配、復(fù)雜的天氣干擾、以及復(fù)雜光照差異下都可以工作。

EmerNeRF剛剛開源，并提供了復(fù)雜場景數(shù)據(jù)集NOTR，有多種玩法。

2. 摘要

本文提出的EmerNeRF基于NeRF，可以自監(jiān)督地同時(shí)捕獲野外場景的幾何形狀、外觀、運(yùn)動和語義。EmerNeRF將場景分層為靜態(tài)場和動態(tài)場，在instant-NGP對三維空間進(jìn)行Hash的基礎(chǔ)上，多尺度增強(qiáng)動態(tài)對象的渲染精度。通過結(jié)合靜態(tài)場、動態(tài)場和光流（場景流）場，EmerNeRF能夠在不依賴于有監(jiān)督動態(tài)對象分割或光流估計(jì)的前提下表示高度動態(tài)的場景，并實(shí)現(xiàn)了最先進(jìn)的性能。

3. 算法解析

EmerNeRF為得到四維的時(shí)空表示，將整體場景分解為一個(gè)表征背景的靜態(tài)場，一個(gè)構(gòu)成動態(tài)前景的動態(tài)場，一個(gè)表征運(yùn)動的光流場和一個(gè)天空預(yù)測的模塊構(gòu)成。具體地，所有分解后的輻射場都以instant-NGP為backbone，也即使用可微的hash grids參數(shù)化每個(gè)神經(jīng)輻射場。靜態(tài)場的輸入僅有位置，動態(tài)場與光流場的輸入則為位置與相應(yīng)的時(shí)間。

后半部分的多頭解碼器則全部由MLP完成，這里為了達(dá)到合成的目的，比instant-NGP多出了一個(gè)預(yù)測shadow ratio的頭。這個(gè)0到1之間的shadow ratio 用來控制動態(tài)前景體素與靜態(tài)背景體素間的合成比例。另外，基于靜態(tài)場的體素占比總體場景體素較大的假設(shè)，EmerNeRF在NeRF的基礎(chǔ)損失上額外加了一項(xiàng)動態(tài)體素密度的約束。這種設(shè)計(jì)不再需要預(yù)先做額外的實(shí)例分割，充分利用了NeRF本身的特性。

場景流估計(jì)

為了進(jìn)一步解除密集的光流標(biāo)簽監(jiān)督，EmerNeRF使用了假設(shè)，多幀特征聚合只對temporally-consistent的特征有效。因此，額外的場景流分支不僅要學(xué)習(xí)動態(tài)物體間的關(guān)系，還要能夠有效聚合幀間關(guān)系，以便讓RGB信息能夠監(jiān)督光流。具體地，還是采取hash grid + MLP的組合，這里的MLP輸出為6維，包含前向3維和反向3維的轉(zhuǎn)移預(yù)測。而特征聚合則是采用了當(dāng)前時(shí)間戳與前后共三步的特征加權(quán)平均值。

解決一下使用ViT中位置編碼的問題

單純使用NeRF輸出顏色場和體素密度場，還達(dá)不到仿真的要求。為了能給有關(guān)語義場景理解任務(wù)鋪好路，EmerNeRF將2D視覺基礎(chǔ)模型(Vision Foundation Model)應(yīng)用到4D的時(shí)空數(shù)據(jù)。然而在使用目前最先進(jìn)的模型例如DINOv2時(shí)，Positional Embedding（PE）的feature pattern 不太正常：

無論 3D 視點(diǎn)如何變化，feature pattern卻在圖像中保持固定，從而破壞了3D 多視圖一致性。

EmerNeRF基于 ViT 提取特征的觀察逐圖像進(jìn)行映射，并且這些 PE pattern在不同圖像中顯示（幾乎）一致。這表明單個(gè)PE pattern可能足以表示此共享的現(xiàn)象。因此，這里假設(shè)PE pattern為一個(gè)加性噪聲模型，這樣從原始特征中減去就能獲得無PE特征。有了這個(gè)假設(shè)，我們構(gòu)造可學(xué)習(xí)且全局共享的 2D 特征圖 U 來作為補(bǔ)償。

對于目標(biāo)像素坐標(biāo)(u, v)，首先對無 PE 特征進(jìn)行體積渲染，然后對U進(jìn)行雙線性插值并使用單層MLP解碼得到PE pattern特征，然后將其添加到無PE特征中。

4. 實(shí)驗(yàn)

在Waymo公開數(shù)據(jù)集的基礎(chǔ)上，本文提出新數(shù)據(jù)集NeRF On-The-Road (NOTR)。

NOTR包含120個(gè)獨(dú)特的駕駛序列，分為32個(gè)靜態(tài)場景、32個(gè)動態(tài)場景和56個(gè)包含七種挑戰(zhàn)條件的場景：靜態(tài)、高速、曝光不匹配、黃昏/黎明、陰天、多雨和夜間。

駕駛感知任務(wù)：動態(tài)物體的邊界框，地面真實(shí)的3D場景流動以及3D語義占用。我們希望這個(gè)數(shù)據(jù)集能夠促進(jìn)NeRF在駕駛場景中的研究，將NeRF的應(yīng)用從僅僅的視圖合成擴(kuò)展到運(yùn)動理解，例如3D流動，以及場景理解，比如語義。

場景分類NOTR 靜態(tài)場景遵循StreetSuRF中提出的劃分，其中包含沒有移動物體的干凈場景。動態(tài)場景，這些場景在駕駛記錄中經(jīng)常出現(xiàn)，是根據(jù)光照條件選擇的，以區(qū)分它們與“多樣化”類別中的場景。Diverse-56樣本也可能包含動態(tài)物體，但它們主要基于自車狀態(tài)（例如，自車靜止、高速、相機(jī)曝光不匹配）、天氣條件（例如，雨天、昏暗）、以及光照差異（例如，夜晚、黃昏/黎明）進(jìn)行劃分。

渲染實(shí)驗(yàn)包含了靜態(tài)，動態(tài)的新視角合成評估

在場景分解上，EmerNeRF主要與D^2 NeRF 與HyperNeRF相比較，在靜態(tài)和動態(tài)的圖像合成任務(wù)上均領(lǐng)先。

隱式場景流任務(wù)

在場景流估計(jì)任務(wù)上， EmerNeRF主要與目前僅有的工作NSFP（Neural scene flow prior）相比較，并采用相同的評估指標(biāo)：

3D端點(diǎn)誤差（EPE3D），計(jì)算為所有點(diǎn)預(yù)測值與實(shí)際地面真實(shí)值之間的平均L2距離；

Acc5，代表EPE3D小于5厘米或相對誤差在5%以下的點(diǎn)的比例；

Acc10，表示EPE3D小于10厘米或相對誤差在10%以下的點(diǎn)的比例；

θ，表示預(yù)測值與地面真實(shí)值之間的平均角度誤差。比較結(jié)果如下：

下游感知任務(wù)

為了調(diào)查ViT位置編碼模式對三維感知和特征合成的影響，這里的ablation study主要比較是否帶有本文提出的位置編碼分解模塊對于下游任務(wù)的影響。這里采用了few-shot的occupancy估計(jì)，這里使用的Occ3D數(shù)據(jù)集為不同尺寸occupancy 提供了語義標(biāo)注。對于每個(gè)序列，妹隔10幀允許帶著標(biāo)簽，這樣產(chǎn)生10%的有標(biāo)簽數(shù)據(jù)。占用的坐標(biāo)是輸入到預(yù)訓(xùn)練的EmerNeRF模型以計(jì)算每個(gè)類的特征centroid。然后剩余 90% 的幀用于query，并根據(jù)其最近的特征質(zhì)心進(jìn)行分類。

PE改進(jìn)的ablation study

通過比較包含 PE 和無 PE 模型的特征 PSNR，能夠發(fā)現(xiàn)使用EmerNeRF中提出的PE分解方法時(shí)特征合成質(zhì)量顯著提高，尤其對于 DINOv2。而DINOv1受 PE 模式的影響較小。這里也推薦工坊推出的新課程《深度剖析面向自動駕駛領(lǐng)域的車載傳感器空間同步（標(biāo)定）》。

5. 總結(jié)

今天筆者為大家介紹了一種基于NeRF的簡單而強(qiáng)大的自動駕駛仿真框架 EmerNeRF。EmerNeRF 解決了基于 Transformer 的框架中特征時(shí)出現(xiàn)的問題性位置嵌入模式。由于使用NeRF的思路，EmerNeRF在靜態(tài)場景重建、新視角合成還是場景流估計(jì)方面都是以自監(jiān)督的方式學(xué)習(xí)的，而無需依賴于地面真實(shí)對象標(biāo)注或預(yù)先訓(xùn)練的模型。同時(shí)，EmerNeRF 在傳感器模擬方面表現(xiàn)出色，可以處理文中提出的NOTR數(shù)據(jù)集中具有挑戰(zhàn)性的駕駛場景。

審核編輯：劉清

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴