欧美性爱在线播放,成年午夜无码av片在线观看

本文介紹了自動駕駛中單目攝像頭檢測輸出3-D邊界框的方法

單目圖像估計3-D檢測框是目前自動駕駛研發(fā)流行的，單純的2-D檢測框無法在3-D空間去做規(guī)劃控制，去年百度Apollo發(fā)布2.5版本特意提到這方面的解決方案。

這里分析一下公開發(fā)表的有關(guān)論文，特別是近期的深度學(xué)習(xí)CNN框架，供參考。

其實最早看到3-D BBox的工作是Mobileye以前的CEO Shashua教授給的PPT demo（沒有paper了）：

結(jié)果Tesla和Nvidia全都這么干了，潮流：）。

注：關(guān)于單目鏡頭估計物體的姿態(tài)有不少論文，也是跟這個課題相關(guān)的，一些深度學(xué)習(xí)的方法也不錯，不過不是本文的重點，在此不做重復(fù)介紹。

3D Bounding Boxes for Road Vehicles: A One-Stage, Localization Prioritized Approach using Single Monocular Images，9，2018

來自UC San Diego的論文。簡單講，該方法提出估計center of bottom face of 3D bounding box (CBF) 來解決2-D圖像得到3-D邊框的問題，為加速也采用了LUT。同時估計的還有物體的大小尺寸以及姿態(tài)。

下圖解釋了他們采用key point預(yù)測的方法而不是傳統(tǒng)2-D邊框底邊中心去推理3-D的位置。

這是他們的3-D邊框估計的算法結(jié)構(gòu)：

3D Bounding Box Estimation Using Deep Learning and Geometry，CVPR，2017

該文也是百度Apollo引用的方法：

首先估計物體3-D朝向，然后回歸物體尺寸和3-D中心，最后得到物體的整個姿態(tài)和位置。這是2-D和3-D邊框的對應(yīng)關(guān)系圖：

論文提出一種MultiBin方法求解物體朝向（相鄰bin之間可以重疊一部分），CNN模型如下圖：

朝向的局部和全局的關(guān)系如下所示：

總之，該方法利用了幾何約束從2-D邊框來估計3-D邊框，其中朝向估計很關(guān)鍵。一些結(jié)果見下圖：

Joint Monocular 3D Vehicle Detection and Tracking， 11，2018

該方法是對上面工作的推廣，增加了跟蹤模塊，提高了穩(wěn)定性。

這是算法的流程圖：在RPN預(yù)測3-D中心的2-D投影位置，其中采用ROIalign而不是ROIpool減小了misalignment。每個求解3-D邊框的ROI包括以下幾項：2d Bbox, 3d box 中心投影, confidence score 和對應(yīng)特征向量。

其他跟蹤部分就不重點提了，下圖是一些結(jié)果展示：

下圖解釋了2-D邊框中心和3-D邊框中心的不同：

Orthographic Feature Transform for Monocular 3D Object Detection，11，2018

本文提出一個orthographic feature transform（OFT）用于解決2-D圖像推理物體3-D邊框的問題，原理如下圖：

在一個深度學(xué)習(xí)框架下，該模塊可以把圖像特征圖映射到正交鳥瞰圖，如下圖所示，輸入到一個top down network進(jìn)行推理。

結(jié)果就不討論了，細(xì)節(jié)在論文里。

Multi-Level Fusion based 3D Object Detection from Monocular Images, CVPR, 2018

這是去年CVPR‘18的論文，下面是算法結(jié)構(gòu): 采用兩步法，加了一個估計深度圖的模型，結(jié)果送入RPN模塊，比較奢侈的做法，后面還將視差圖轉(zhuǎn)換成點云，進(jìn)入detection模塊。

這是他們展示的結(jié)果：

看來大家對單目估計深度圖/視差圖很有信心。

MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization, 11, 2018

微軟的一篇論文，下圖是算法框圖：提出instance depth estimation (IDE)，不是圖像的深度圖，可以直接估計物體3-D邊框的深度，還是采用ROIalign取代ROIpool；包括4個模塊，即2d detection(棕色), instance depth estimation(綠色), 3d location estimation(藍(lán)色) 和 local corner regression(黃色)。

這是估計Instance depth的模型結(jié)構(gòu)：

這個示意圖告訴我們3-D邊框的圖像定位關(guān)系：

Instance depth的概念的解釋如下圖，的確是比較節(jié)儉的做法：

一些結(jié)果展示：

Mono3D++: Monocular 3D Vehicle Detection with Two-Scale 3D Hypotheses and Task Priors, 1, 2019

Face++和UCLA的最新論文，算法框圖見下圖：該方法不光用了深度估計，還借用了路面假設(shè)作為約束；另外，采用morphable wireframe model，不過為避免landmark敏感，對3-D邊框做了模糊表示；除此之外，還有一個模塊叫3D-2D consistency。

這是3D-2D consistency的框圖介紹：包括幾個部分 2D Bounding box，2D Landmark，3D Orientation 和 scale hypotheses。

感覺還是比較奢侈的做法。

CubeSLAM: Monocular 3D Object Detection and SLAM without Prior Models, 6, 2018

從2-D邊框和消失點產(chǎn)生3-D cuboid proposals，隨后在單目視覺SLAM框架中優(yōu)化，如下圖：

這是產(chǎn)生Proposals的方法：根據(jù)可視的面數(shù)目將Cuboids分成3類

下面是SLAM框架：在ORB SLAM基礎(chǔ)上改進(jìn)，加入物體信息。

特征點的相關(guān)性處理方法采用物體點為先，景物點為后，如圖：綠色點是map上的，其他顏色的點屬于物體。

一些結(jié)果展示：

BoxCars: Improving Fine-Grained Recognition of Vehicles using 3D Bounding Boxes in Traffic Surveillance，CVPR，2016

3D 物體邊框是從監(jiān)控視頻（比車載視頻容易些）的2-D邊框得到的，如圖所示：利用了輪廓信息和姿態(tài)信息。

其實它的方法是把3-D邊框各個面拆開，如圖：然后輸入到CNN模型推理3-D信息。

這個CNN模型用來估計沿著消失點的方向：

結(jié)果是這樣的：

Vehicle Detection and Pose Estimation for Autonomous Driving (Thesis)，2017

一個博士論文。采用FCN模型訓(xùn)練得到2-D和3-D邊框，如圖：定義3-D邊框的3個方向，即front-bottom, left-bottom, front-left。

3D邊框定義如下：8個角點，6個面。

也是路面假設(shè)，這是得到3-D邊框的關(guān)鍵，下面是圖像逆投影公式：

根據(jù)逆投影和路面假設(shè)，可以先得到3-D邊框在路面的位置。下圖是3-D邊框投影到路面的效果：平行四邊形，然后被推理出實際3D邊框底部的正方形。

加上估計的物體高度，就得到3-D邊框。首先，先估算路面，算法如下：

利用前面提到的，bottom-left line 作為frontal plane 的法向量，然后用front-bottom-left 的點計算front plane；找到frontal plane 和逆投影的交點即得到頂點位置，這樣高度就得到了。

一些結(jié)果展示：包括頂視圖

Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image，CVPR，2017

MANTA是Many-Tasks的意思。完全通過CNN模型估計多個信息，如圖展示的結(jié)果：檢測, 部件定位, 可視性和3D尺寸大小。

車輛模型的定義：wireframe模型比較復(fù)雜，不過能推理出遮擋的部件。

定義的車輛模版如圖：這是一個半自動的標(biāo)注工程。

MANTA的系統(tǒng)框圖：CNN模型，region proposal network為先，之后修正兩次，分別是proposal改進(jìn)和2-D邊框估計，最后NMS優(yōu)化和3-D邊框估計。

Monocular 3D Object Detection for Autonomous Driving，CVPR，2016

比較有開拓性的CNN模型做3-D檢測的工作。如圖介紹系統(tǒng)如何產(chǎn)生3-D邊框的proposal：仍然有路面假設(shè)，有各種信息，包括分割，2D邊框，上下文，形狀，位置等等。

采用的CNN模型結(jié)構(gòu)對3-D邊框的proposal打分：

打分的公式是：包括什么提到的各種信息term

結(jié)果展示：

Joint SFM and Detection Cues for Monocular 3D Localization in Road Scenes，CVPR，2015

NEC Lab早些的工作，給出的系統(tǒng)框圖如下：將SFM和檢測結(jié)合起來。

3-D定位物體是有假設(shè)路面的前提，首先看坐標(biāo)系的定義如下圖：

而2-D邊框的底部可以通過路面假設(shè)反投到3-D空間：

下圖是物體的SFM部分：

整個定位輸出如圖這樣：其中右下角頂視圖有激光雷達(dá)ground truth顯示為紅色。

Are Cars Just 3D Boxes? – Jointly Estimating the 3D Shape of Multiple Objects，CVPR，2014

也比較舊的論文，下圖展示該系統(tǒng)通過shape modeling得到更精確的3-D定位：

根據(jù)路面假設(shè)和occlusion mask的3-D景物模型：

產(chǎn)生Scene particles，然后推理最后的deformable shapes，如圖算法：

一些結(jié)果如圖：

Monocular Visual Scene Understanding: Understanding Multi-Object Traffic Scenes，CVPR，2012

更早的論文，系統(tǒng)示意圖如下：有路面假設(shè)的景物模型，有遮擋推理模型，有跟蹤，有分割；HMM做跟蹤算法，MCMC方法做推理。

下圖是路面假設(shè)下的車載坐標(biāo)系和世界坐標(biāo)系的關(guān)系：

這里介紹的是車載攝像頭的旋轉(zhuǎn)：

目標(biāo)距離的估計類似Mobileye，如圖：

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

攝像頭

攝像頭

+關(guān)注

關(guān)注
60

文章
4902

瀏覽量
97149
自動駕駛

自動駕駛

+關(guān)注

關(guān)注
788

文章
14069

瀏覽量
168359
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5533

瀏覽量
122143

原文標(biāo)題：自動駕駛中單目攝像頭檢測輸出3-D邊界框的方法一覽

文章出處：【微信號：IV_Technology，微信公眾號：智車科技】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

FPGA在自動駕駛領(lǐng)域有哪些應(yīng)用？

是FPGA在自動駕駛領(lǐng)域的主要應(yīng)用：一、感知算法加速圖像處理：自動駕駛中需要通過攝像頭獲取并識別道路信息和行駛環(huán)境，這涉及到大量的圖像處理任務(wù)。FPGA在處理圖像上的運算速度快，可

發(fā)表于 07-29 17:09

自動駕駛真的會來嗎？

高速路段，其無法自動識別停車等路標(biāo)。所以只有當(dāng)圖像識別、判斷，信息的分析、學(xué)習(xí)，得到深入發(fā)展，才可能真正解決自動駕駛面臨的難題?！　×硗庠谟布用?，圖像采集也是難關(guān)。無論是各類攝像頭還是傳感器，其都是一

發(fā)表于 07-21 09:00

單目攝像頭和FPGA的ADAS產(chǎn)品原型系統(tǒng)

`1月5日-8日拉斯維加斯消費電子展（CES）上，地平線機器人（以下簡稱“地平線”）將與英特爾聯(lián)合展示一款基于單目攝像頭和FPGA的ADAS產(chǎn)品原型系統(tǒng)。車輛檢測結(jié)果該原型由英特爾和地

發(fā)表于 01-06 18:09

淺析自動駕駛發(fā)展趨勢，激光雷達(dá)是未來？

，將毫米波雷達(dá)、攝像頭、激光雷達(dá)等傳感器數(shù)據(jù)融合的技術(shù)，對于保證車輛對周邊環(huán)境的全局定位和理解是至關(guān)重要的，且為Level 3-Level 5級自動駕駛方案的實現(xiàn)提供了必要的技術(shù)儲備。在環(huán)境感知

發(fā)表于 09-06 11:36

ADAS視覺傳感技術(shù)，為朝向自動駕駛趨勢發(fā)展做好準(zhǔn)備

來監(jiān)測道路以及危險狀況，甚至有時輔助駕駛者來自動剎車，從而避免撞車。因此，自動緊急剎車系統(tǒng)在新汽車中日益普及。駕駛者監(jiān)控是汽車技術(shù)中的最新應(yīng)

發(fā)表于 06-02 08:00

為何自動駕駛需要5G？

嗎？由于易受雨、雪、霧、強光等環(huán)境影響，攝像頭能始終準(zhǔn)確識別指示牌和紅綠燈嗎？再舉一個例子。當(dāng)自動駕駛在高速路上以130公里/小時行駛時，攝像機/雷達(dá)融合無法安全地檢測到前方超過120

發(fā)表于 06-08 07:00

自動駕駛這些年經(jīng)歷了什么？

自動駕駛汽車通過攝像頭、雷達(dá)和激光雷達(dá)等傳感器來感知世界。類似雷達(dá)，激光雷達(dá)，使用不可見的光脈沖來繪制周圍區(qū)域的高精度3D地圖。攝像頭、雷達(dá)和激光雷達(dá)三者是相輔相成的關(guān)系。

發(fā)表于 08-04 07:27

請問攝像頭、雷達(dá)和LIDAR哪個更適合自動駕駛汽車？

攝像頭、雷達(dá)和LIDAR，自動駕駛汽車選擇誰？

發(fā)表于 11-23 12:32

本田ADAS采用博世單目攝像頭，大幅增強行人檢測能力

本田通過轉(zhuǎn)用博世單目攝像頭，大大地提升了汽車白天檢測行人的能力，此功能正是高級駕駛員輔助系統(tǒng)的主要功能之一。

發(fā)表于 07-09 18:34 ?9148次閱讀

StradVision發(fā)布最新自動駕駛攝像頭技術(shù)

日前，軟件供應(yīng)商StradVision發(fā)布了高級自動駕駛攝像頭技術(shù)。公司透露，他們已經(jīng)開發(fā)完成了基于攝像頭的SVNet軟件，這個軟件可以運行在自動駕駛汽車的芯片組上，從而使

發(fā)表于 07-31 14:47 ?1332次閱讀

人臉識別中雙目、單目、3D結(jié)構(gòu)光攝像頭的區(qū)別

邁迪杰科技提供的rk3288人臉識別模組可支持雙目攝像頭和3D結(jié)構(gòu)光攝像頭，在客戶咨詢中經(jīng)常有被問到雙目的為什么會比單目的成本高，區(qū)別在哪里，他們的適用于哪些場景呢? 在此就為大家詳細(xì)

發(fā)表于 06-18 14:38 ?3.1w次閱讀

Mobileye公布最新自動駕駛方案

自動駕駛用攝像頭，包括前向6個，后向1個。與EyeQ4最大不同之處在于三目攝像頭被雙目取代了，三目攝像頭

發(fā)表于 10-12 11:40 ?4155次閱讀

人臉識別中雙目、單目、3D結(jié)構(gòu)光攝像頭之間的區(qū)別

聯(lián)智通達(dá)提供的rk3288人臉識別模組可支持雙目攝像頭和3D結(jié)構(gòu)光攝像頭，在客戶咨詢中經(jīng)常有被問到雙目的為什么會比單目的成本高，區(qū)別在哪里，他們的適用于哪些場景呢? 在此，聯(lián)智通達(dá)技術(shù)

發(fā)表于 02-26 14:32 ?1.2w次閱讀

激光雷達(dá)、單目攝像頭、雙目攝像頭原理和優(yōu)缺點

激光雷達(dá)、單目攝像頭、雙目攝像頭原理和優(yōu)缺點激光雷達(dá)是目前定位選擇的主流傳感器，帶自主導(dǎo)航的室內(nèi)掃地機的商用產(chǎn)品，一般都會配備激光雷達(dá)。在自動駕駛

發(fā)表于 03-26 15:58 ?1.6w次閱讀

自動駕駛-毫米波雷達(dá)與攝像頭.zip

自動駕駛-毫米波雷達(dá)與攝像頭

發(fā)表于 01-13 09:07 ?10次下載

搜索歷史

自動駕駛中單目攝像頭檢測輸出3-D邊界框的方法

評論