雖然,從小型客車(chē)到多軸半掛卡車(chē),自動(dòng)駕駛汽車(chē) (AV) 有各種尺寸和大小,但部署在這些車(chē)輛上的感知算法都要經(jīng)過(guò)訓(xùn)練,以處理諸如避障或行人檢測(cè)等類(lèi)似場(chǎng)景。
用于開(kāi)發(fā)和驗(yàn)證這些算法的數(shù)據(jù)集通常從某一款車(chē)型中收集,例如配備攝像頭、雷達(dá)、激光雷達(dá)和超聲波傳感器的某款小轎車(chē)。
使用某類(lèi)傳感器配置的車(chē)隊(duì)數(shù)據(jù)訓(xùn)練的感知算法可以在同類(lèi)傳感器配置的車(chē)型上穩(wěn)定運(yùn)行。但當(dāng)相同的算法被部署到使用了不同傳感器配置的車(chē)輛上時(shí),感知性能會(huì)降低,因?yàn)楝F(xiàn)在是從新的視角來(lái)感知的。
分析感知精度的損失,需要測(cè)量深度神經(jīng)網(wǎng)絡(luò) (DNN) 對(duì)新傳感器位置的敏感度。通過(guò)靈敏度分析,可以從多個(gè)角度重新訓(xùn)練感知算法,從而有針對(duì)性地提高魯棒性。
但是,靈敏度分析和重新訓(xùn)練感知都需要收集和標(biāo)注各種傳感器配置的數(shù)據(jù)集。這個(gè)過(guò)程耗時(shí)且成本高昂。
本文展示了 NVIDIA DRIVE Sim 中的合成數(shù)據(jù)集以及 NVIDIA 在新視角合成 (NVS) 方面的最新研究如何填補(bǔ)數(shù)據(jù)缺口,并幫助在部署新傳感器配置時(shí)保持感知準(zhǔn)確性。
測(cè)量 DNN 靈敏度
在為不同傳感器視角創(chuàng)建合成數(shù)據(jù)集之前,首先需要在 NVIDIA DRIVE Sim 中構(gòu)建數(shù)字孿生的測(cè)試車(chē)隊(duì)車(chē)輛,并配備經(jīng)過(guò)與真實(shí)世界的傳感器配置標(biāo)定的攝像頭傳感器模型。
合成數(shù)據(jù)是通過(guò)在預(yù)定義場(chǎng)景中按照某個(gè)軌跡駕駛汽車(chē),收集并保存仿真攝像頭數(shù)據(jù)。每次駕駛的場(chǎng)景各不相同,例如傳感器裝備高度、俯沖和安裝位置等方面,以模擬其他尺寸類(lèi)型的車(chē)輛。
通過(guò)使用 NVIDIA Omniverse Replicator 在 Omniverse 中生成真值 (Ground Truth, GT) 標(biāo)注(如 3D 邊界框)和評(píng)估感知算法所需的目標(biāo)類(lèi)別。整個(gè)工作流都是可重復(fù)的,并且能夠運(yùn)行設(shè)計(jì)好的實(shí)驗(yàn),以便快速測(cè)量感知算法的靈敏度。
在生成的數(shù)據(jù)集做推理,將預(yù)測(cè)的輸出與 GT 標(biāo)簽進(jìn)行比較,用以測(cè)量在不同攝像頭高度配置下的模型精度,如圖 1 和 圖 2 所示。數(shù)據(jù)集的場(chǎng)景相同,但傳感器角度不同。在圖 1 中,藍(lán)色框代表 GT 標(biāo)簽,而綠色框代表網(wǎng)絡(luò)的預(yù)測(cè)。在圖 2 中,藍(lán)色框代表 GT 標(biāo)簽,而紅色框代表網(wǎng)絡(luò)的預(yù)測(cè)。
圖 1. 目標(biāo)檢測(cè)模型
在四個(gè)不同的合成數(shù)據(jù)集上運(yùn)行的示例,
重點(diǎn)關(guān)注車(chē)輛物體類(lèi)別
圖 2. 目標(biāo)檢測(cè)模型
在四個(gè)不同的合成數(shù)據(jù)集上運(yùn)行的示例,
重點(diǎn)關(guān)注行人物體類(lèi)
鑒于網(wǎng)絡(luò)是基于一類(lèi)車(chē)輛采集數(shù)據(jù)進(jìn)行訓(xùn)練的,因此(與采集車(chē))相似的攝像頭配置,檢測(cè)會(huì)更準(zhǔn)確,隨著攝像頭位置的顯著變化而檢測(cè)性能降低。
要解決感知模型在新車(chē)型上部署的差距,需要視角不同于原始采集車(chē)的新車(chē)型的訓(xùn)練數(shù)據(jù)集。雖然現(xiàn)有的車(chē)隊(duì)數(shù)據(jù)可通過(guò)數(shù)據(jù)增強(qiáng)來(lái)使用,但這種方法并不能完全滿(mǎn)足數(shù)據(jù)集收集新視角的需求。
新視角合成
NVS 是一種計(jì)算機(jī)視覺(jué)方法,用于從一組現(xiàn)有圖像中生成未見(jiàn)過(guò)的新場(chǎng)景視圖。這項(xiàng)功能可以從不同視角或角度創(chuàng)建場(chǎng)景圖像,而不是由車(chē)載相機(jī)捕獲。
圖 3. 新視角合成的完整管線(xiàn)
NVIDIA 研究團(tuán)隊(duì)最近提出了一種 NVS 方法,該方法能夠?qū)?dòng)態(tài)駕駛數(shù)據(jù)從一個(gè)傳感器位置轉(zhuǎn)換到新視角,用于模擬不同的高度、俯仰角 (pitch) 和航向角 (yaw) 等傳感器的新視角。有關(guān)詳細(xì)信息,請(qǐng)參閱 Towards Viewpoint Robustness in Bird’s Eye View Segmentation。
(https://nvlabs.github.io/viewpoint-robustness/assets/tzofi2023view.pdf)
該方法基于 Worldsheet,一種結(jié)合深度估計(jì)和 3D 網(wǎng)格合成來(lái)生成靜態(tài)場(chǎng)景新視角的技術(shù)。首先,根據(jù)預(yù)測(cè)的深度值將Lattice網(wǎng)格變形以匹配場(chǎng)景,從而創(chuàng)建 3D 場(chǎng)景網(wǎng)格。然后,使用紋理采樣器將原始圖像中的 RGB 像素強(qiáng)度投射到 3D 網(wǎng)格的紋理圖上。相比之前的工作,進(jìn)一步采用基于激光雷達(dá)的深度監(jiān)督和自動(dòng)掩碼來(lái)提高深度估計(jì)的準(zhǔn)確性并處理遮擋問(wèn)題。
NVS 模型現(xiàn)在可用于生成數(shù)據(jù),就像是從不同類(lèi)型的車(chē)輛中獲取的一樣。從而能幫助解鎖現(xiàn)有車(chē)隊(duì)數(shù)據(jù),以便在未來(lái)的自動(dòng)駕駛汽車(chē)開(kāi)發(fā)中使用。
圖 4. NVS 變換后的圖像示例,這些圖像生成的視角會(huì)改變?cè)几┭鼋?、深度和高?/p>
驗(yàn)證 NVS 并提升感知性能
在將 NVS 生成的數(shù)據(jù)納入訓(xùn)練數(shù)據(jù)集之前,首先要驗(yàn)證其是否準(zhǔn)確的反映了真實(shí)世界,并且是否對(duì)感知訓(xùn)練有效。
為此,驗(yàn)證 NVS 算法需要結(jié)合車(chē)隊(duì)數(shù)據(jù)和 NVS 轉(zhuǎn)換后的數(shù)據(jù)來(lái)訓(xùn)練感知算法。如果沒(méi)有多視角的真實(shí)數(shù)據(jù)來(lái)測(cè)試模型的性能,可以在 DRIVE Sim 中生成合成數(shù)據(jù)和 GT 標(biāo)注,與前面討論的靈敏度測(cè)試類(lèi)似。
圖 5. 在 DRIVE Sim 中生成的一組用于感知驗(yàn)證的具有不同俯仰角、深度和高度的攝像頭圖像
在這些合成數(shù)據(jù)集上做推理表明,使用 NVS 生成的數(shù)據(jù)進(jìn)行訓(xùn)練可以提高感知性能。具體而言:
-
NVS 生成的數(shù)據(jù)質(zhì)量非常合適用于不同俯仰角場(chǎng)景,不適用于較大高度的場(chǎng)景。
-
用于訓(xùn)練的 NVS 轉(zhuǎn)換數(shù)據(jù)能夠恢復(fù)感知性能,而這曾只有通過(guò)為每個(gè)新傳感器配置收集新數(shù)據(jù)才能實(shí)現(xiàn)。
這種方法開(kāi)啟了一種 AV 開(kāi)發(fā)新途徑,即只需一次數(shù)據(jù)采集,然后再將其重新用于多種車(chē)型,從而顯著降低部署成本和時(shí)間。
結(jié)語(yǔ)
開(kāi)發(fā)能夠在不同類(lèi)型車(chē)輛上魯棒的運(yùn)行的感知堆棧是一項(xiàng)巨大的數(shù)據(jù)挑戰(zhàn)。而合成數(shù)據(jù)生成和用于新視角合成 (NVS) 的 AI 技術(shù)能夠?qū)崿F(xiàn)感知靈敏度的系統(tǒng)測(cè)量。這大大提高了現(xiàn)有數(shù)據(jù)集的價(jià)值,并縮短了為其他車(chē)輛部署感知堆棧的時(shí)間。
我們邀請(qǐng)了廣大研究人員參與這項(xiàng)工作。因此,我們?cè)?Towards Viewpoint Robustness in Bird’s Eye View Segmentation 中公布了來(lái)自 DRIVE Sim 的合成數(shù)據(jù):
https://nvlabs.github.io/viewpoint-robustness/assets/tzofi2023view.pdf
歡迎探索這些數(shù)據(jù)并了解詳情:
https://nvlabs.github.io/viewpoint-robustness/
點(diǎn)擊“閱讀原文”,獲取更多資訊。
了解更多
-
NVIDIA 與其汽車(chē)行業(yè)合作伙伴共同開(kāi)發(fā)的領(lǐng)先設(shè)計(jì)與技術(shù):
https://developer.nvidia.cn/drive
-
適用于自動(dòng)駕駛汽車(chē)的 NVIDIA 解決方案:
https://www.nvidia.cn/self-driving-cars/
GTC 2024 將于 2024 年 3 月 18 至 21 日在美國(guó)加州圣何塞會(huì)議中心舉行,線(xiàn)上大會(huì)也將同期開(kāi)放。掃描下方海報(bào)二維碼,立即注冊(cè) GTC 大會(huì)。
原文標(biāo)題:使用合成數(shù)據(jù)處理自動(dòng)駕駛新視角感知
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3791瀏覽量
91307
原文標(biāo)題:使用合成數(shù)據(jù)處理自動(dòng)駕駛新視角感知
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論