0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自動駕駛中單目攝像頭檢測輸出3-D邊界框的方法

ml8z_IV_Technol ? 來源:lp ? 2019-03-07 16:54 ? 次閱讀

本文介紹了自動駕駛中單目攝像頭檢測輸出3-D邊界框的方法

單目圖像估計3-D檢測框是目前自動駕駛研發(fā)流行的,單純的2-D檢測框無法在3-D空間去做規(guī)劃控制,去年百度Apollo發(fā)布2.5版本特意提到這方面的解決方案。

這里分析一下公開發(fā)表的有關(guān)論文,特別是近期的深度學(xué)習(xí)CNN框架,供參考。

其實最早看到3-D BBox的工作是Mobileye以前的CEO Shashua教授給的PPT demo(沒有paper了):

結(jié)果Tesla和Nvidia全都這么干了,潮流:)。

注:關(guān)于單目鏡頭估計物體的姿態(tài)有不少論文,也是跟這個課題相關(guān)的,一些深度學(xué)習(xí)的方法也不錯,不過不是本文的重點,在此不做重復(fù)介紹。

3D Bounding Boxes for Road Vehicles: A One-Stage, Localization Prioritized Approach using Single Monocular Images,9,2018

來自UC San Diego的論文。簡單講,該方法提出估計center of bottom face of 3D bounding box (CBF) 來解決2-D圖像得到3-D邊框的問題,為加速也采用了LUT。同時估計的還有物體的大小尺寸以及姿態(tài)。

下圖解釋了他們采用key point預(yù)測的方法而不是傳統(tǒng)2-D邊框底邊中心去推理3-D的位置。

這是他們的3-D邊框估計的算法結(jié)構(gòu):

3D Bounding Box Estimation Using Deep Learning and Geometry,CVPR,2017

該文也是百度Apollo引用的方法:

首先估計物體3-D朝向,然后回歸物體尺寸和3-D中心,最后得到物體的整個姿態(tài)和位置。這是2-D和3-D邊框的對應(yīng)關(guān)系圖:

論文提出一種MultiBin方法求解物體朝向(相鄰bin之間可以重疊一部分),CNN模型如下圖:

朝向的局部和全局的關(guān)系如下所示:

總之,該方法利用了幾何約束從2-D邊框來估計3-D邊框,其中朝向估計很關(guān)鍵。一些結(jié)果見下圖:

Joint Monocular 3D Vehicle Detection and Tracking, 11,2018

該方法是對上面工作的推廣,增加了跟蹤模塊,提高了穩(wěn)定性。

這是算法的流程圖:在RPN預(yù)測3-D中心的2-D投影位置,其中采用ROIalign而不是ROIpool減小了misalignment。每個求解3-D邊框的ROI包括以下幾項:2d Bbox, 3d box 中心投影, confidence score 和 對應(yīng)特征向量。

其他跟蹤部分就不重點提了,下圖是一些結(jié)果展示:

下圖解釋了2-D邊框中心和3-D邊框中心的不同:

Orthographic Feature Transform for Monocular 3D Object Detection,11,2018

本文提出一個orthographic feature transform(OFT)用于解決2-D圖像推理物體3-D邊框的問題,原理如下圖:

在一個深度學(xué)習(xí)框架下,該模塊可以把圖像特征圖映射到正交鳥瞰圖,如下圖所示,輸入到一個top down network進(jìn)行推理。

結(jié)果就不討論了,細(xì)節(jié)在論文里。

Multi-Level Fusion based 3D Object Detection from Monocular Images, CVPR, 2018

這是去年CVPR‘18的論文,下面是算法結(jié)構(gòu): 采用兩步法,加了一個估計深度圖的模型,結(jié)果送入RPN模塊,比較奢侈的做法,后面還將視差圖轉(zhuǎn)換成點云,進(jìn)入detection模塊。

這是他們展示的結(jié)果:

看來大家對單目估計深度圖/視差圖很有信心。

MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization, 11, 2018

微軟的一篇論文,下圖是算法框圖:提出instance depth estimation (IDE),不是圖像的深度圖,可以直接估計物體3-D邊框的深度,還是采用ROIalign取代ROIpool;包括4個模塊,即2d detection(棕色), instance depth estimation(綠色), 3d location estimation(藍(lán)色) 和 local corner regression(黃色)。

這是估計Instance depth的模型結(jié)構(gòu):

這個示意圖告訴我們3-D邊框的圖像定位關(guān)系:

Instance depth的概念的解釋如下圖,的確是比較節(jié)儉的做法:

一些結(jié)果展示:

Mono3D++: Monocular 3D Vehicle Detection with Two-Scale 3D Hypotheses and Task Priors, 1, 2019

Face++和UCLA的最新論文,算法框圖見下圖:該方法不光用了深度估計,還借用了路面假設(shè)作為約束;另外,采用morphable wireframe model,不過為避免landmark敏感,對3-D邊框做了模糊表示;除此之外,還有一個模塊叫3D-2D consistency。

這是3D-2D consistency的框圖介紹:包括幾個部分 2D Bounding box,2D Landmark,3D Orientation 和 scale hypotheses。

感覺還是比較奢侈的做法。

CubeSLAM: Monocular 3D Object Detection and SLAM without Prior Models, 6, 2018

從2-D邊框和消失點產(chǎn)生3-D cuboid proposals,隨后在單目視覺SLAM框架中優(yōu)化,如下圖:

這是產(chǎn)生Proposals的方法:根據(jù)可視的面數(shù)目將Cuboids分成3類

下面是SLAM框架:在ORB SLAM基礎(chǔ)上改進(jìn),加入物體信息

特征點的相關(guān)性處理方法采用物體點為先,景物點為后,如圖:綠色點是map上的,其他顏色的點屬于物體。

一些結(jié)果展示:

BoxCars: Improving Fine-Grained Recognition of Vehicles using 3D Bounding Boxes in Traffic Surveillance,CVPR,2016

3D 物體邊框是從監(jiān)控視頻 (比車載視頻容易些)的2-D邊框得到的,如圖所示:利用了輪廓信息和姿態(tài)信息。

其實它的方法是把3-D邊框各個面拆開,如圖:然后輸入到CNN模型推理3-D信息。

這個CNN模型用來估計沿著消失點的方向:

結(jié)果是這樣的:

Vehicle Detection and Pose Estimation for Autonomous Driving (Thesis),2017

一個博士論文。采用FCN模型訓(xùn)練得到2-D和3-D邊框,如圖:定義3-D邊框的3個方向,即front-bottom, left-bottom, front-left。

3D邊框定義如下:8個角點,6個面。

也是路面假設(shè),這是得到3-D邊框的關(guān)鍵,下面是圖像逆投影公式:

根據(jù)逆投影和路面假設(shè),可以先得到3-D邊框在路面的位置。下圖是3-D邊框投影到路面的效果:平行四邊形,然后被推理出實際3D邊框底部的正方形。

加上估計的物體高度,就得到3-D邊框。首先,先估算路面,算法如下:

利用前面提到的,bottom-left line 作為frontal plane 的法向量,然后用front-bottom-left 的點計算front plane;找到frontal plane 和逆投影的交點即得到頂點位置,這樣高度就得到了。

一些結(jié)果展示:包括頂視圖

Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image,CVPR,2017

MANTA是Many-Tasks的意思。完全通過CNN模型估計多個信息,如圖展示的結(jié)果:檢測, 部件定位, 可視性 和3D尺寸大小。

車輛模型的定義:wireframe模型比較復(fù)雜,不過能推理出遮擋的部件。

定義的車輛模版如圖:這是一個半自動的標(biāo)注工程。

MANTA的系統(tǒng)框圖:CNN模型,region proposal network為先,之后修正兩次,分別是proposal改進(jìn)和2-D邊框估計,最后NMS優(yōu)化和3-D邊框估計。

Monocular 3D Object Detection for Autonomous Driving,CVPR,2016

比較有開拓性的CNN模型做3-D檢測的工作。如圖介紹系統(tǒng)如何產(chǎn)生3-D邊框的proposal:仍然有路面假設(shè),有各種信息,包括分割,2D邊框,上下文,形狀,位置等等。

采用的CNN模型結(jié)構(gòu)對3-D邊框的proposal打分:

打分的公式是:包括什么提到的各種信息term

結(jié)果展示:

Joint SFM and Detection Cues for Monocular 3D Localization in Road Scenes,CVPR,2015

NEC Lab早些的工作,給出的系統(tǒng)框圖如下:將SFM和檢測結(jié)合起來。

3-D定位物體是有假設(shè)路面的前提,首先看坐標(biāo)系的定義如下圖:

而2-D邊框的底部可以通過路面假設(shè)反投到3-D空間:

下圖是物體的SFM部分:

整個定位輸出如圖這樣:其中右下角頂視圖有激光雷達(dá)ground truth顯示為紅色。

Are Cars Just 3D Boxes? – Jointly Estimating the 3D Shape of Multiple Objects,CVPR,2014

也比較舊的論文,下圖展示該系統(tǒng)通過shape modeling得到更精確的3-D定位:

根據(jù)路面假設(shè)和occlusion mask的3-D景物模型:

產(chǎn)生Scene particles,然后推理最后的deformable shapes,如圖算法:

一些結(jié)果如圖:

Monocular Visual Scene Understanding: Understanding Multi-Object Traffic Scenes,CVPR,2012

更早的論文,系統(tǒng)示意圖如下:有路面假設(shè)的景物模型,有遮擋推理模型,有跟蹤,有分割;HMM做跟蹤算法,MCMC方法做推理。

下圖是路面假設(shè)下的車載坐標(biāo)系和世界坐標(biāo)系的關(guān)系:

這里介紹的是車載攝像頭的旋轉(zhuǎn):

目標(biāo)距離的估計類似Mobileye,如圖:

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 攝像頭
    +關(guān)注

    關(guān)注

    60

    文章

    4845

    瀏覽量

    95754
  • 自動駕駛
    +關(guān)注

    關(guān)注

    784

    文章

    13826

    瀏覽量

    166503
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5503

    瀏覽量

    121206

原文標(biāo)題:自動駕駛中單目攝像頭檢測輸出3-D邊界框的方法一覽

文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    FPGA在自動駕駛領(lǐng)域有哪些應(yīng)用?

    是FPGA在自動駕駛領(lǐng)域的主要應(yīng)用: 一、感知算法加速 圖像處理:自動駕駛需要通過攝像頭獲取并識別道路信息和行駛環(huán)境,這涉及到大量的圖像處理任務(wù)。FPGA在處理圖像上的運算速度快,可
    發(fā)表于 07-29 17:09

    自動駕駛真的會來嗎?

    高速路段,其無法自動識別停車等路標(biāo)。所以只有當(dāng)圖像識別、判斷,信息的分析、學(xué)習(xí),得到深入發(fā)展,才可能真正解決自動駕駛面臨的難題?! ×硗庠谟布用?,圖像采集也是難關(guān)。無論是各類攝像頭還是傳感器,其都是一
    發(fā)表于 07-21 09:00

    攝像頭和FPGA的ADAS產(chǎn)品原型系統(tǒng)

    `1月5日-8日拉斯維加斯消費電子展(CES)上,地平線機(jī)器人(以下簡稱“地平線”)將與英特爾聯(lián)合展示一款基于攝像頭和FPGA的ADAS產(chǎn)品原型系統(tǒng)。車輛檢測結(jié)果該原型由英特爾和地
    發(fā)表于 01-06 18:09

    淺析自動駕駛發(fā)展趨勢,激光雷達(dá)是未來?

    ,將毫米波雷達(dá)、攝像頭、激光雷達(dá)等傳感器數(shù)據(jù)融合的技術(shù),對于保證車輛對周邊環(huán)境的全局定位和理解是至關(guān)重要的,且為Level 3-Level 5級自動駕駛方案的實現(xiàn)提供了必要的技術(shù)儲備。在環(huán)境感知
    發(fā)表于 09-06 11:36

    ADAS視覺傳感技術(shù),為朝向自動駕駛趨勢發(fā)展做好準(zhǔn)備

    來監(jiān)測道路以及危險狀況,甚至有時輔助駕駛者來自動剎車,從而避免撞車。因此,自動緊急剎車系統(tǒng)在新汽車中日益普及。駕駛者監(jiān)控是汽車技術(shù)的最新應(yīng)
    發(fā)表于 06-02 08:00

    為何自動駕駛需要5G?

    嗎?由于易受雨、雪、霧、強(qiáng)光等環(huán)境影響,攝像頭能始終準(zhǔn)確識別指示牌和紅綠燈嗎?再舉一個例子。當(dāng)自動駕駛在高速路上以130公里/小時行駛時,攝像機(jī)/雷達(dá)融合無法安全地檢測到前方超過120
    發(fā)表于 06-08 07:00

    自動駕駛這些年經(jīng)歷了什么?

    自動駕駛汽車通過攝像頭、雷達(dá)和激光雷達(dá)等傳感器來感知世界。類似雷達(dá),激光雷達(dá),使用不可見的光脈沖來繪制周圍區(qū)域的高精度3D地圖。攝像頭、雷達(dá)和激光雷達(dá)三者是相輔相成的關(guān)系。
    發(fā)表于 08-04 07:27

    請問攝像頭、雷達(dá)和LIDAR哪個更適合自動駕駛汽車?

    攝像頭、雷達(dá)和LIDAR,自動駕駛汽車選擇誰?
    發(fā)表于 11-23 12:32

    本田ADAS采用博世攝像頭,大幅增強(qiáng)行人檢測能力

    本田通過轉(zhuǎn)用博世攝像頭,大大地提升了汽車白天檢測行人的能力,此功能正是高級駕駛員輔助系統(tǒng)的主要功能之一。
    的頭像 發(fā)表于 07-09 18:34 ?8989次閱讀

    StradVision發(fā)布最新自動駕駛攝像頭技術(shù)

    日前,軟件供應(yīng)商StradVision發(fā)布了高級自動駕駛攝像頭技術(shù)。公司透露,他們已經(jīng)開發(fā)完成了基于攝像頭的SVNet軟件,這個軟件可以運行在自動駕駛汽車的芯片組上,從而使
    發(fā)表于 07-31 14:47 ?1292次閱讀

    人臉識別雙目、、3D結(jié)構(gòu)光攝像頭的區(qū)別

    邁迪杰科技提供的rk3288人臉識別模組可支持雙目攝像頭3D結(jié)構(gòu)光攝像頭,在客戶咨詢中經(jīng)常有被問到雙目的為什么會比目的成本高,區(qū)別在哪里,他們的適用于哪些場景呢? 在此就為大家詳細(xì)
    發(fā)表于 06-18 14:38 ?3w次閱讀

    Mobileye公布最新自動駕駛方案

    自動駕駛攝像頭,包括前向6個,后向1個。與EyeQ4最大不同之處在于三攝像頭被雙目取代了,三攝像頭
    的頭像 發(fā)表于 10-12 11:40 ?4033次閱讀
    Mobileye公布最新<b class='flag-5'>自動駕駛</b>方案

    人臉識別雙目、、3D結(jié)構(gòu)光攝像頭之間的區(qū)別

    聯(lián)智通達(dá)提供的rk3288人臉識別模組可支持雙目攝像頭3D結(jié)構(gòu)光攝像頭,在客戶咨詢中經(jīng)常有被問到雙目的為什么會比目的成本高,區(qū)別在哪里,他們的適用于哪些場景呢? 在此,聯(lián)智通達(dá)技術(shù)
    發(fā)表于 02-26 14:32 ?1.1w次閱讀

    激光雷達(dá)、攝像頭、雙目攝像頭原理和優(yōu)缺點

    激光雷達(dá)、攝像頭、雙目攝像頭原理和優(yōu)缺點 激光雷達(dá)是目前定位選擇的主流傳感器,帶自主導(dǎo)航的室內(nèi)掃地機(jī)的商用產(chǎn)品,一般都會配備激光雷達(dá)。在自動駕駛
    的頭像 發(fā)表于 03-26 15:58 ?1.5w次閱讀
    激光雷達(dá)、<b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>攝像頭</b>、雙目<b class='flag-5'>攝像頭</b>原理和優(yōu)缺點

    自動駕駛-毫米波雷達(dá)與攝像頭.zip

    自動駕駛-毫米波雷達(dá)與攝像頭
    發(fā)表于 01-13 09:07 ?10次下載