CVPR 2019的文章出來了,今天聊聊雙目的 3D object detection。這是一篇來自 DJI (大疆)與港科大合作的文章《Stereo R-CNN based 3D Object Detection for Autonomous Driving》,作者分別是 Peiliang Li,陳曉智(DJI,MV3D的作者)和港科大的 Shaojie Shen 老師。
論文鏈接,文中稱代碼將開源
https://arxiv.org/abs/1902.09738
1. Introduction
2018 年在 3D 檢測方面的文章層出不窮,也是各個(gè)公司無人駕駛或者機(jī)器人學(xué)部門關(guān)注的重點(diǎn),包含了點(diǎn)云,點(diǎn)云圖像融合,以及單目 3D 檢測,但是在雙目視覺方面的貢獻(xiàn)還是比較少,自從 3DOP 之后。
總體來說,圖像的檢測距離、圖像的 density 以及 context 信息,在 3D檢測中是不可或缺的一部分,因此作者在這篇文章中挖掘了雙目視覺做 3D檢測的的潛力。
2.Network Structure
整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)分為以下的幾個(gè)部分。
1). RPN部分,作者將左右目的圖像通過stereoRPN產(chǎn)生相應(yīng)的proposal。具體來說stereo RPN是在FPN的基礎(chǔ)上,將每個(gè)FPN的scale上的feature map的進(jìn)行concat的結(jié)構(gòu)。
2). Stereo Regression,在RPN之后,通過RoiAlign的操作,得到each FPN scale下的left and right Roi features,然后concat相應(yīng)的特征,經(jīng)過fc層得到object class, stereo bounding boxes dimension還有viewpoint angle(下圖所示) 的值。這里解釋一下viewpoint,根據(jù)Figure3.,假定物
3). keypoint的檢測。這里采用的是類似于mask rcnn的結(jié)構(gòu)進(jìn)行關(guān)鍵點(diǎn)的預(yù)測。文章定義了4個(gè)3D semantic keypoint,即車輛底部的3D corner point,同時(shí)將這4個(gè)點(diǎn)投影到圖像,得到4個(gè)perspective keypoint,這4個(gè)點(diǎn)在3D bbox regression起到一定的作用,我們在下一部分再介紹。
在keypoint檢測任務(wù)中,作者利用RoiAlign得到的14*14feature map,經(jīng)過conv,deconv最后得到6 * 28 * 28的feature map,注意到只有keypoint的u坐標(biāo)會(huì)提供2D Box以外的信息,因此,處于減少計(jì)算量的目的,作者aggregate每一列的feature,得到6 * 28的output,其中,前4個(gè)channel代表4個(gè)keypoint被投影到相應(yīng)的u坐標(biāo)的概率,后面兩個(gè)channel代表是left or right boundary上的keypoint的概率。
3. 3D Box Estimation
通過網(wǎng)絡(luò)回歸得到的 2D box 的 dimension,viewpoint,還有 keypoint,我們可以通過一定的方式得到3D box的位置。定義 3D box 的狀態(tài)x = [x, y, z, θ]。
Figure 5,給出了一些稀疏的約束。包含了特征點(diǎn)的映射過程。這里也體現(xiàn)了keypoint的用處。
上述公式即為約束方程,因此可以通過高斯牛頓的方法直接求解。具體可以參考論文的引文17。這里我們簡單證明一下第一個(gè)公式。注意,這里的假設(shè)都是u,v坐標(biāo)都已經(jīng)經(jīng)過相機(jī)內(nèi)參的歸一化了。
4. Dense 3D Box Alignment
這里就回到shenshaojie老師比較熟悉的BA的過程了,由于part 3僅僅只是一個(gè)object level的深度,這里文章利用最小化左右視圖的RGB的值,得到一個(gè)更加refine的過程。定義如下的誤差函數(shù)
求解可以利用G20或者ceres也可以完成。整個(gè)alignment過程其實(shí)相對于深度的直接預(yù)測是更加robust的,因?yàn)檫@種預(yù)測方法,避免了全局的depth estimation中的一些invalid的pixel引起的ill problem的問題。
5. experiment
作者在實(shí)驗(yàn)這塊達(dá)到了雙目視覺的state-of-the-art,同時(shí)對于各個(gè)module也做了很充足的實(shí)驗(yàn)(這塊請查看原論文)。
下面是圖a、b、c為處理結(jié)果示例,每幅圖像內(nèi)部上中下三部分,分別為左眼圖像檢測結(jié)果、右眼圖像檢測結(jié)果、鳥瞰視圖檢測結(jié)果。
圖a
圖b
圖c
6. Insight
最后談?wù)勎恼陆o我的一些 insights,首先,整個(gè)文章將傳統(tǒng)的 detection 的任務(wù),結(jié)合了 geometry constraint 優(yōu)化的方式,做到了3D位置的估計(jì),想法其實(shí)在不少文章sfm-learner之類的文章已經(jīng)有體現(xiàn)過了,不過用在3Ddetection上面還是比較新穎,避免了做雙目匹配估計(jì)深度的過程。也屬于slam跟深度學(xué)習(xí)結(jié)合的一篇文章,感興趣的朋友可以繼續(xù)看看(下面鏈接)相關(guān)文章
arxiv.org/abs/1802.0552
談幾點(diǎn)我個(gè)人意義上的不足吧,首先耗時(shí)過程 0.28s 的 inference time,不過可能作者的重點(diǎn)也不在這個(gè)方面,特征的利用上可以更加有效率,在實(shí)現(xiàn)上。其次,能不能采用deep3dbox的方式預(yù)測dimension,然后添加入優(yōu)化項(xiàng)呢...總體來說,是一篇不錯(cuò)的值得一讀的文章!
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28483瀏覽量
207438 -
3D
+關(guān)注
關(guān)注
9文章
2891瀏覽量
107640 -
圖像檢測
+關(guān)注
關(guān)注
0文章
34瀏覽量
11890
原文標(biāo)題:大疆、港科大聯(lián)手!雙目3D目標(biāo)檢測實(shí)驗(yàn)效果大放送 | CVPR 2019
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論