單目圖像估計3-D檢測框是目前自動駕駛研發(fā)流行的,單純的2-D檢測框無法在3-D空間去做規(guī)劃控制,去年百度Apollo發(fā)布2.5版本特意提到這方面的解決方案。
這里分析一下公開發(fā)表的有關(guān)論文,特別是近期的深度學(xué)習(xí)CNN框架,供參考。
其實最早看到3-D BBox的工作是Mobileye以前的CEO Shashua教授給的PPT demo(沒有paper了):
結(jié)果Tesla和Nvidia全都這么干了,潮流:)。
注:關(guān)于單目鏡頭估計物體的姿態(tài)有不少論文,也是跟這個課題相關(guān)的,一些深度學(xué)習(xí)的方法也不錯,不過不是本文的重點,在此不做重復(fù)介紹。
3D Bounding Boxes for Road Vehicles: A One-Stage, Localization Prioritized Approach using Single Monocular Images,9,2018
來自UC San Diego的論文。簡單講,該方法提出估計center of bottom face of 3D bounding box (CBF) 來解決2-D圖像得到3-D邊框的問題,為加速也采用了LUT。同時估計的還有物體的大小尺寸以及姿態(tài)。
下圖解釋了他們采用key point預(yù)測的方法而不是傳統(tǒng)2-D邊框底邊中心去推理3-D的位置。
這是他們的3-D邊框估計的算法結(jié)構(gòu):
3D Bounding Box Estimation Using Deep Learning and Geometry,CVPR,2017
該文也是百度Apollo引用的方法:
首先估計物體3-D朝向,然后回歸物體尺寸和3-D中心,最后得到物體的整個姿態(tài)和位置。這是2-D和3-D邊框的對應(yīng)關(guān)系圖:
論文提出一種MultiBin方法求解物體朝向(相鄰bin之間可以重疊一部分),CNN模型如下圖:
朝向的局部和全局的關(guān)系如下所示:
總之,該方法利用了幾何約束從2-D邊框來估計3-D邊框,其中朝向估計很關(guān)鍵。一些結(jié)果見下圖:
Joint Monocular 3D Vehicle Detection and Tracking, 11,2018
該方法是對上面工作的推廣,增加了跟蹤模塊,提高了穩(wěn)定性。
這是算法的流程圖:在RPN預(yù)測3-D中心的2-D投影位置,其中采用ROIalign而不是ROIpool減小了misalignment。每個求解3-D邊框的ROI包括以下幾項:2d Bbox, 3d box 中心投影, confidence score 和 對應(yīng)特征向量。
其他跟蹤部分就不重點提了,下圖是一些結(jié)果展示:
下圖解釋了2-D邊框中心和3-D邊框中心的不同:
Orthographic Feature Transform for Monocular 3D Object Detection,11,2018
本文提出一個orthographic feature transform(OFT)用于解決2-D圖像推理物體3-D邊框的問題,原理如下圖:
在一個深度學(xué)習(xí)框架下,該模塊可以把圖像特征圖映射到正交鳥瞰圖,如下圖所示,輸入到一個top down network進(jìn)行推理。
結(jié)果就不討論了,細(xì)節(jié)在論文里。
Multi-Level Fusion based 3D Object Detection from Monocular Images, CVPR, 2018
這是去年CVPR‘18的論文,下面是算法結(jié)構(gòu): 采用兩步法,加了一個估計深度圖的模型,結(jié)果送入RPN模塊,比較奢侈的做法,后面還將視差圖轉(zhuǎn)換成點云,進(jìn)入detection模塊。
這是他們展示的結(jié)果:
看來大家對單目估計深度圖/視差圖很有信心。
MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization, 11, 2018
微軟的一篇論文,下圖是算法框圖:提出instance depth estimation (IDE),不是圖像的深度圖,可以直接估計物體3-D邊框的深度,還是采用ROIalign取代ROIpool;包括4個模塊,即2d detection(棕色), instance depth estimation(綠色), 3d location estimation(藍(lán)色) 和 local corner regression(黃色)。
這是估計Instance depth的模型結(jié)構(gòu):
這個示意圖告訴我們3-D邊框的圖像定位關(guān)系:
Instance depth的概念的解釋如下圖,的確是比較節(jié)儉的做法:
一些結(jié)果展示:
Mono3D++: Monocular 3D Vehicle Detection with Two-Scale 3D Hypotheses and Task Priors, 1, 2019
Face++和UCLA的最新論文,算法框圖見下圖:該方法不光用了深度估計,還借用了路面假設(shè)作為約束;另外,采用morphable wireframe model,不過為避免landmark敏感,對3-D邊框做了模糊表示;除此之外,還有一個模塊叫3D-2D consistency。
這是3D-2D consistency的框圖介紹:包括幾個部分 2D Bounding box,2D Landmark,3D Orientation 和 scale hypotheses。
感覺還是比較奢侈的做法。
CubeSLAM: Monocular 3D Object Detection and SLAM without Prior Models, 6, 2018
從2-D邊框和消失點產(chǎn)生3-D cuboid proposals,隨后在單目視覺SLAM框架中優(yōu)化,如下圖:
這是產(chǎn)生Proposals的方法:根據(jù)可視的面數(shù)目將Cuboids分成3類
下面是SLAM框架:在ORB SLAM基礎(chǔ)上改進(jìn),加入物體信息。
特征點的相關(guān)性處理方法采用物體點為先,景物點為后,如圖:綠色點是map上的,其他顏色的點屬于物體。
一些結(jié)果展示:
BoxCars: Improving Fine-Grained Recognition of Vehicles using 3D Bounding Boxes in Traffic Surveillance,CVPR,2016
3D 物體邊框是從監(jiān)控視頻 (比車載視頻容易些)的2-D邊框得到的,如圖所示:利用了輪廓信息和姿態(tài)信息。
其實它的方法是把3-D邊框各個面拆開,如圖:然后輸入到CNN模型推理3-D信息。
這個CNN模型用來估計沿著消失點的方向:
結(jié)果是這樣的:
Vehicle Detection and Pose Estimation for Autonomous Driving (Thesis),2017
一個博士論文。采用FCN模型訓(xùn)練得到2-D和3-D邊框,如圖:定義3-D邊框的3個方向,即front-bottom, left-bottom, front-left。
3D邊框定義如下:8個角點,6個面。
也是路面假設(shè),這是得到3-D邊框的關(guān)鍵,下面是圖像逆投影公式:
根據(jù)逆投影和路面假設(shè),可以先得到3-D邊框在路面的位置。下圖是3-D邊框投影到路面的效果:平行四邊形,然后被推理出實際3D邊框底部的正方形。
加上估計的物體高度,就得到3-D邊框。首先,先估算路面,算法如下:
利用前面提到的,bottom-left line 作為frontal plane 的法向量,然后用front-bottom-left 的點計算front plane;找到frontal plane 和逆投影的交點即得到頂點位置,這樣高度就得到了。
一些結(jié)果展示:包括頂視圖
Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image,CVPR,2017
MANTA是Many-Tasks的意思。完全通過CNN模型估計多個信息,如圖展示的結(jié)果:檢測, 部件定位, 可視性 和3D尺寸大小。
車輛模型的定義:wireframe模型比較復(fù)雜,不過能推理出遮擋的部件。
定義的車輛模版如圖:這是一個半自動的標(biāo)注工程。
MANTA的系統(tǒng)框圖:CNN模型,region proposal network為先,之后修正兩次,分別是proposal改進(jìn)和2-D邊框估計,最后NMS優(yōu)化和3-D邊框估計。
Monocular 3D Object Detection for Autonomous Driving,CVPR,2016
比較有開拓性的CNN模型做3-D檢測的工作。如圖介紹系統(tǒng)如何產(chǎn)生3-D邊框的proposal:仍然有路面假設(shè),有各種信息,包括分割,2D邊框,上下文,形狀,位置等等。
采用的CNN模型結(jié)構(gòu)對3-D邊框的proposal打分:
打分的公式是:包括什么提到的各種信息term
結(jié)果展示:
Joint SFM and Detection Cues for Monocular 3D Localization in Road Scenes,CVPR,2015
NEC Lab早些的工作,給出的系統(tǒng)框圖如下:將SFM和檢測結(jié)合起來。
3-D定位物體是有假設(shè)路面的前提,首先看坐標(biāo)系的定義如下圖:
而2-D邊框的底部可以通過路面假設(shè)反投到3-D空間:
下圖是物體的SFM部分:
整個定位輸出如圖這樣:其中右下角頂視圖有激光雷達(dá)ground truth顯示為紅色。
Are Cars Just 3D Boxes? – Jointly Estimating the 3D Shape of Multiple Objects,CVPR,2014
也比較舊的論文,下圖展示該系統(tǒng)通過shape modeling得到更精確的3-D定位:
根據(jù)路面假設(shè)和occlusion mask的3-D景物模型:
產(chǎn)生Scene particles,然后推理最后的deformable shapes,如圖算法:
一些結(jié)果如圖:
Monocular Visual Scene Understanding: Understanding Multi-Object Traffic Scenes,CVPR,2012
更早的論文,系統(tǒng)示意圖如下:有路面假設(shè)的景物模型,有遮擋推理模型,有跟蹤,有分割;HMM做跟蹤算法,MCMC方法做推理。
下圖是路面假設(shè)下的車載坐標(biāo)系和世界坐標(biāo)系的關(guān)系:
這里介紹的是車載攝像頭的旋轉(zhuǎn):
目標(biāo)距離的估計類似Mobileye,如圖:
-
攝像頭
+關(guān)注
關(guān)注
60文章
4845瀏覽量
95754 -
自動駕駛
+關(guān)注
關(guān)注
784文章
13826瀏覽量
166503 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5503瀏覽量
121206
原文標(biāo)題:自動駕駛中單目攝像頭檢測輸出3-D邊界框的方法一覽
文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論