近日,CVPR 2019發(fā)布接收論文ID列表,共計(jì)1300篇論文被接收,接受率為25.2%。本文整理了無(wú)人駕駛方面的優(yōu)秀論文,一起來(lái)看看該領(lǐng)域最前沿的研究課題。
CVPR 是首屈一指的年度計(jì)算機(jī)視覺盛會(huì),在機(jī)器學(xué)習(xí)領(lǐng)域享有盛名。今年的 CVPR 將于 6 月 16 日-20 日于美國(guó)加州的長(zhǎng)灘市舉行。
CVPR 作為計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議,今年共收到了 5165 篇有效提交論文,比去年 CVPR2018 增加了 56%。不久之前,CVPR 2019 官網(wǎng)放出了最終的論文接收結(jié)果。據(jù)統(tǒng)計(jì),本屆大會(huì)共接收了 1300 論文,接收率接近 25.2%。本文智車科技整理了本屆會(huì)議上與無(wú)人駕駛相關(guān)的優(yōu)秀論文及項(xiàng)目,并附有下載鏈接。
1.
題目:Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving(偽激光雷達(dá))
作者:Yan Wang, Wei-Lun Chao, Divyansh Garg, Bharath Hariharan, Mark Campbell, Kilian Q. Weinberger論文鏈接:https://arxiv.org/abs/1812.07179項(xiàng)目鏈接:https://mileyan.github.io/pseudo_lidar/代碼鏈接:https://github.com/mileyan/pseudo_lidar
摘要:3D物體檢測(cè)是自動(dòng)駕駛中的基本任務(wù)。如果從精確但昂貴的LiDAR技術(shù)獲得3D輸入數(shù)據(jù),則最近的技術(shù)具有高度準(zhǔn)確的檢測(cè)率。迄今為止,基于較便宜的單目或立體圖像數(shù)據(jù)的方法導(dǎo)致精度顯著降低 - 這種差距通常歸因于基于圖像的深度估計(jì)不良。然而,在本文中,我們認(rèn)為數(shù)據(jù)表示(而不是其質(zhì)量)占據(jù)了差異的大部分??紤]到卷積神經(jīng)網(wǎng)絡(luò)的內(nèi)部工作原理,我們建議將基于圖像的深度圖轉(zhuǎn)換為偽LiDAR表示 - 基本上模仿LiDAR信號(hào)。通過(guò)這種表示,我們可以應(yīng)用不同的現(xiàn)有基于LiDAR的檢測(cè)算法。在流行的KITTI基準(zhǔn)測(cè)試中,我們的方法在現(xiàn)有的基于圖像的性能方面取得了令人印象深刻的改進(jìn) - 提高了30米范圍內(nèi)物體的檢測(cè)精度,從先前的22%到現(xiàn)在的前所未有的74% 。在提交時(shí),我們的算法在KITTI 3D對(duì)象檢測(cè)排行榜上保持最高條目,用于基于立體圖像的方法。
2.
題目:ApolloCar3D: A Large 3D Car Instance Understanding Benchmark for Autonomous Driving(數(shù)據(jù)集)
作者:Xibin Song, Peng Wang, Dingfu Zhou, Rui Zhu, Chenye Guan, Yuchao Dai, Hao Su, Hongdong Li, Ruigang Yang論文鏈接:https://arxiv.org/abs/1811.12222
摘要:自動(dòng)駕駛引起了業(yè)界和學(xué)術(shù)界的極大關(guān)注。一個(gè)重要的任務(wù)是估計(jì)道路上移動(dòng)或停放的車輛的3D特性(例如,翻譯,旋轉(zhuǎn)和形狀)。這項(xiàng)任務(wù)雖然至關(guān)重要,但在計(jì)算機(jī)視覺領(lǐng)域仍未得到充分研究 - 部分原因在于缺乏適合自動(dòng)駕駛研究的大規(guī)模和完全注釋的3D汽車數(shù)據(jù)庫(kù)。在本文中,我們貢獻(xiàn)了第一個(gè)適合3D汽車實(shí)例理解的大型數(shù)據(jù)庫(kù) - ApolloCar3D。該數(shù)據(jù)集包含5,277個(gè)駕駛圖像和超過(guò)60K的汽車實(shí)例,其中每輛汽車都配備了具有絕對(duì)模型尺寸和語(yǔ)義標(biāo)記關(guān)鍵點(diǎn)的行業(yè)級(jí)3D CAD模型。該數(shù)據(jù)集比PASCAL3D +和KITTI(現(xiàn)有技術(shù)水平)大20倍以上。為了在3D中實(shí)現(xiàn)高效標(biāo)記,我們通過(guò)考慮單個(gè)實(shí)例的2D-3D關(guān)鍵點(diǎn)對(duì)應(yīng)關(guān)系和多個(gè)實(shí)例之間的3D關(guān)系來(lái)構(gòu)建管道。配備這樣的數(shù)據(jù)集,我們使用最先進(jìn)的深度卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建各種基線算法。具體來(lái)說(shuō),我們首先使用預(yù)先訓(xùn)練的Mask R-CNN對(duì)每輛車進(jìn)行分段,然后基于可變形的3D汽車模型,使用或不使用語(yǔ)義關(guān)鍵點(diǎn),對(duì)其3D姿勢(shì)和形狀進(jìn)行回歸。研究表明,使用關(guān)鍵點(diǎn)可以顯著提高擬合性能。最后,我們開發(fā)了一個(gè)新的3D度量,共同考慮3D姿勢(shì)和3D形狀,允許進(jìn)行全面的評(píng)估和消融研究。
3.
題目:SR-LSTM: State Refinement for LSTM towards Pedestrian Trajectory Prediction(行人預(yù)測(cè))
作者:Pu Zhang, Wanli Ouyang, Pengfei Zhang, Jianru Xue, Nanning Zheng
論文鏈接:https://arxiv.org/abs/1903.02793
摘要:在人群場(chǎng)景中,行人的可靠軌跡預(yù)測(cè)需要深刻理解他們的社交行為。大量研究已經(jīng)很好地研究了這些行為,而規(guī)則很難充分表達(dá)。最近基于LSTM網(wǎng)絡(luò)的研究表明,學(xué)習(xí)社交行為的能力很強(qiáng)。然而,這些方法中的許多方法依賴于先前的相鄰隱藏狀態(tài),但忽略了鄰居的重要當(dāng)前意圖。為了解決這個(gè)問(wèn)題,我們提出了一個(gè)用于LSTM網(wǎng)絡(luò)(SR-LSTM)的數(shù)據(jù)驅(qū)動(dòng)狀態(tài)細(xì)化模塊,它激活了對(duì)鄰居當(dāng)前意圖的利用,并共同和迭代地改進(jìn)了人群中所有參與者的當(dāng)前狀態(tài)。通過(guò)消息傳遞機(jī)制。為了有效地提取鄰居的社會(huì)影響,我們進(jìn)一步介紹了一種社會(huì)意識(shí)信息選擇機(jī)制,包括逐元素運(yùn)動(dòng)門和行人注意力,以便從鄰近的行人中選擇有用的信息。兩個(gè)公共數(shù)據(jù)集(即ETH和UCY)的實(shí)驗(yàn)結(jié)果證明了我們提出的SR-LSTM的有效性,并且我們實(shí)現(xiàn)了最先進(jìn)的結(jié)果。
4.
題目:Selective Sensor Fusion for Neural Visual-Inertial Odometry(視覺慣性測(cè)距)
作者:Changhao Chen,Stefano Rosa,Yishu Miao,Chris Xiaoxuan Lu,Wei Wu,Andrew Markham,Niki Trigoni
論文鏈接:https://arxiv.org/abs/1903.01534
摘要:視覺慣性測(cè)距(VIO)的深度學(xué)習(xí)方法已被證明是成功的,但他們很少專注于結(jié)合穩(wěn)健的融合策略來(lái)處理不完美的輸入感覺數(shù)據(jù)。我們提出了一種新穎的端對(duì)端選擇性傳感器融合框架,用于單眼VIO,融合單眼圖像和慣性測(cè)量,以估計(jì)軌跡,同時(shí)提高對(duì)實(shí)際問(wèn)題的魯棒性,如丟失和損壞的數(shù)據(jù)或不良的傳感器同步。特別地,我們提出了兩種基于不同掩蔽策略的融合模態(tài):確定軟性融合和隨機(jī)硬融合,并與先前提出的直接融合基線進(jìn)行比較。在測(cè)試期間,網(wǎng)絡(luò)能夠選擇性地處理可用傳感器模態(tài)的特征并且產(chǎn)生大規(guī)模的軌跡。我們對(duì)三種公共自動(dòng)駕駛,微型飛行器(MAV)和手持VIO數(shù)據(jù)集的性能進(jìn)行了全面調(diào)查。結(jié)果證明了融合策略的有效性,與直接融合相比,其提供了更好的性能,特別是在存在損壞的數(shù)據(jù)的情況下。此外,我們通過(guò)可視化不同場(chǎng)景中的掩蔽層和不同的數(shù)據(jù)損壞來(lái)研究融合網(wǎng)絡(luò)的可解釋性,揭示融合網(wǎng)絡(luò)與不完美的傳感輸入數(shù)據(jù)之間的有趣相關(guān)性。
5.
題目:DeepMapping: Unsupervised Map Estimation From Multiple Point Clouds作者:Li Ding, Chen Feng論文鏈接:https://arxiv.org/abs/1811.11397項(xiàng)目鏈接:https://ai4ce.github.io/DeepMapping/
摘要:我們提出DeepMapping,一種新穎的注冊(cè)框架,使用深度神經(jīng)網(wǎng)絡(luò)(DNN)作為輔助功能,將多點(diǎn)云從頭開始對(duì)齊到全局一致的幀。我們使用DNN來(lái)模擬高度非凸映射過(guò)程,該過(guò)程傳統(tǒng)上涉及手工制作的數(shù)據(jù)關(guān)聯(lián),傳感器姿態(tài)初始化和全局細(xì)化。我們的關(guān)鍵新穎之處在于,正確定義無(wú)監(jiān)督損失以通過(guò)反向傳播來(lái)“訓(xùn)練”這些DNN等同于解決基礎(chǔ)注冊(cè)問(wèn)題,但是對(duì)ICP的要求實(shí)現(xiàn)良好初始化的依賴性更小。我們的框架包含兩個(gè)DNN:一個(gè)估計(jì)輸入點(diǎn)云姿態(tài)的本地化網(wǎng)絡(luò),以及一個(gè)通過(guò)估計(jì)全局坐標(biāo)的占用狀態(tài)來(lái)模擬場(chǎng)景結(jié)構(gòu)的地圖網(wǎng)絡(luò)。這允許我們將配準(zhǔn)問(wèn)題轉(zhuǎn)換為二進(jìn)制占用分類,這可以使用基于梯度的優(yōu)化來(lái)有效地解決。我們進(jìn)一步表明,通過(guò)在連續(xù)點(diǎn)云之間施加幾何約束,可以很容易地?cái)U(kuò)展DeepMapping以解決激光雷達(dá)SLAM的問(wèn)題。在模擬和真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。定性和定量比較表明,與現(xiàn)有技術(shù)相比,DeepMapping通常能夠?qū)崿F(xiàn)更加穩(wěn)健和準(zhǔn)確的多點(diǎn)云全局注冊(cè)。在模擬和真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。定性和定量比較表明,與現(xiàn)有技術(shù)相比,DeepMapping通常能夠?qū)崿F(xiàn)更加穩(wěn)健和準(zhǔn)確的多點(diǎn)云全局注冊(cè)。在模擬和真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。定性和定量比較表明,與現(xiàn)有技術(shù)相比,DeepMapping通常能夠?qū)崿F(xiàn)更加穩(wěn)健和準(zhǔn)確的多點(diǎn)云全局注冊(cè)。
6.
題目:Stereo R-CNN based 3D Object Detection for Autonomous Driving
作者:Peiliang Li, Xiaozhi Chen, Shaojie Shen
研究機(jī)構(gòu):香港科技大學(xué)、大疆
論文下載鏈接:
https://arxiv.org/abs/1902.09738
摘要 :我們通過(guò)充分利用立體圖像中的稀疏,密集,語(yǔ)義和幾何信息,提出了一種用于自動(dòng)駕駛的三維物體檢測(cè)方法。 我們的方法,稱為Stereo R-CNN,擴(kuò)展了更快的R-CNN用于立體聲輸入,以同時(shí)檢測(cè)和關(guān)聯(lián)左右圖像中的對(duì)象。 我們?cè)诹Ⅲw聲區(qū)域提議網(wǎng)絡(luò)(RPN)之后添加額外分支來(lái)預(yù)測(cè)稀疏關(guān)鍵點(diǎn),視點(diǎn)和對(duì)象維度,這些關(guān)鍵點(diǎn)與2D左右框組合以計(jì)算粗略的3D對(duì)象邊界框。 然后,我們通過(guò)使用左右RoI的基于區(qū)域的光度對(duì)準(zhǔn)來(lái)恢復(fù)精確的3D邊界框。 我們的方法不需要深度輸入和3D位置監(jiān)控,但是,優(yōu)于所有現(xiàn)有的完全監(jiān)督的基于圖像的方法。 在具有挑戰(zhàn)性的KITTI數(shù)據(jù)集上的實(shí)驗(yàn)表明,我們的方法在3D檢測(cè)和3D定位任務(wù)上的性能優(yōu)于最先進(jìn)的基于立體的方法約30%AP。
7.
題目:Group-wise Correlation Stereo Network
作者:Xiaoyang Guo,Kai Yang,Wukui Yang,Xiaogang Wang,Hongsheng Li
團(tuán)隊(duì):香港中文大學(xué)電子工程系、商湯科技
論文鏈接:https://arxiv.org/abs/1903.04025
摘要:立體匹配估計(jì)整流圖像對(duì)之間的差異,這對(duì)深度感測(cè)、自動(dòng)駕駛和其他相關(guān)任務(wù)非常重要。先前的工作建立了在所有視差水平上具有交叉相關(guān)或串聯(lián)左右特征的成本量,然后利用2D或3D卷積神經(jīng)網(wǎng)絡(luò)來(lái)回歸視差圖。在本文中,我們建議通過(guò)分組相關(guān)來(lái)構(gòu)建成本量。左邊特征和右邊特征沿著通道維度被分成組,并且在每個(gè)組之間計(jì)算相關(guān)圖以獲得多個(gè)匹配成本提議,然后將其打包到成本量中。分組相關(guān)為測(cè)量特征相似性提供了有效的表示,并且不會(huì)丟失過(guò)多的信息,如完全相關(guān)。與以前的方法相比,它在減少參數(shù)時(shí)也能保持更好的性能。在先前的工作中提出的3D堆疊沙漏網(wǎng)絡(luò)被改進(jìn)以提高性能并降低推理計(jì)算成本。實(shí)驗(yàn)結(jié)果表明,我們的方法在Scene Flow,KITTI 2012和KITTI 2015數(shù)據(jù)集上優(yōu)于以前的方法。此代碼可通過(guò)xy-guo/GwcNet(代碼待更新)獲得。
8.
題目:Hierarchical Discrete Distribution Decomposition for Match Density Estimation研究結(jié)構(gòu):伯克利DeepDrive作者:Zhichao Yin
論文鏈接:https://arxiv.org/abs/1812.06264
摘要:用于像素對(duì)應(yīng)的現(xiàn)有深度學(xué)習(xí)方法輸出運(yùn)動(dòng)場(chǎng)的點(diǎn)估計(jì),但不表示完全匹配分布。匹配分布的顯式表示對(duì)于許多應(yīng)用是期望的,因?yàn)樗试S直接表示對(duì)應(yīng)概率。使用深度網(wǎng)絡(luò)估計(jì)全概率分布的主要困難是推斷整個(gè)分布的高計(jì)算成本。在本文中,我們提出了分層離散分布分解,稱為HD3,以學(xué)習(xí)概率點(diǎn)和區(qū)域匹配。它不僅可以模擬匹配不確定性,還可以模擬區(qū)域傳播。為了實(shí)現(xiàn)這一點(diǎn),我們估計(jì)了不同圖像尺度下像素對(duì)應(yīng)的層次分布,而沒有多假設(shè)集合。盡管它很簡(jiǎn)單,但我們的方法可以在既定基準(zhǔn)上實(shí)現(xiàn)光流和立體匹配的競(jìng)爭(zhēng)結(jié)果,而估計(jì)的不確定性是錯(cuò)誤的良好指標(biāo)。此外,即使區(qū)域在圖像上變化,也可以將區(qū)域內(nèi)的點(diǎn)匹配分布組合在一起以傳播整個(gè)區(qū)域。
9.
題目:Deep Rigid Instance Scene Flow
研究機(jī)構(gòu):Uber ATG部門、MIT、多倫多大學(xué)
作者:Wei-Chiu Ma、Shenlong Wang 、Rui Hu、Yuwen Xiong、 Raquel Urtasun
論文鏈接:
https://people.csail.mit.edu/weichium/papers/cvpr19-drisf/paper.pdf
摘要:在本文中,我們解決了自動(dòng)駕駛環(huán)境下的場(chǎng)景流量估計(jì)問(wèn)題。 我們利用深度學(xué)習(xí)技術(shù)以及強(qiáng)大的先驗(yàn),因?yàn)樵谖覀兊膽?yīng)用領(lǐng)域中,場(chǎng)景的運(yùn)動(dòng)可以由機(jī)器人的運(yùn)動(dòng)和場(chǎng)景中的演員的3D運(yùn)動(dòng)來(lái)組成。 我們將問(wèn)題表達(dá)為深度結(jié)構(gòu)化模型中的能量最小化,這可以通過(guò)展開高斯 - 牛頓求解器在GPU中有效地求解。 我們?cè)诰哂刑魬?zhàn)性的KITTI場(chǎng)景流數(shù)據(jù)集中的實(shí)驗(yàn)表明,我們以超大的優(yōu)勢(shì)超越了最先進(jìn)的技術(shù),同時(shí)快了800倍。
10.
題目:MagicVO: End-to-End Monocular Visual Odometry through Deep Bi-directional Recurrent Convolutional Neural Network(單目視覺測(cè)距)
作者:Jian Jiao,Jichao Jiao,Yaokai Mo,Weilun Liu,Zhongliang Deng
研究結(jié)構(gòu):北郵
論文鏈接:https://arxiv.org/abs/1811.10964
摘要:本文提出了一種解決單眼視覺測(cè)距問(wèn)題的新框架,稱為MagicVO。 基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和雙向LSTM(Bi-LSTM),MagicVO在攝像機(jī)的每個(gè)位置輸出6-DoF絕對(duì)標(biāo)度姿勢(shì),并以一系列連續(xù)單目圖像作為輸入。 它不僅利用CNN在圖像特征處理中的出色表現(xiàn),充分提取圖像幀的豐富特征,而且通過(guò)Bi-LSTM從圖像序列前后學(xué)習(xí)幾何關(guān)系,得到更準(zhǔn)確的預(yù)測(cè)。 MagicVO的管道如圖1所示.MagicVO系統(tǒng)是端到端的,KITTI數(shù)據(jù)集和ETH-asl cla數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明MagicVO比傳統(tǒng)的視覺測(cè)距具有更好的性能( VO)系統(tǒng)在姿態(tài)的準(zhǔn)確性和泛化能力方面。
11.
題目:SSA-CNN: Semantic Self-Attention CNN for Pedestrian Detection
作者:Chengju Zhou,Meiqing Wu,Siew-Kei Lam研究機(jī)構(gòu):南洋理工大學(xué)
論文鏈接:https://arxiv.org/abs/1902.09080v1
摘要:行人檢測(cè)在諸如自動(dòng)駕駛的許多應(yīng)用中起著重要作用。我們提出了一種方法,將語(yǔ)義分割結(jié)果作為自我關(guān)注線索進(jìn)行探索,以顯著提高行人檢測(cè)性能。具體而言,多任務(wù)網(wǎng)絡(luò)被設(shè)計(jì)為從具有弱框注釋的圖像數(shù)據(jù)集聯(lián)合學(xué)習(xí)語(yǔ)義分割和行人檢測(cè)。語(yǔ)義分割特征圖與相應(yīng)的卷積特征圖連接,為行人檢測(cè)和行人分類提供更多的辨別特征。通過(guò)聯(lián)合學(xué)習(xí)分割和檢測(cè),我們提出的行人自我關(guān)注機(jī)制可以有效識(shí)別行人區(qū)域和抑制背景。此外,我們建議將來(lái)自多尺度層的語(yǔ)義注意信息結(jié)合到深度卷積神經(jīng)網(wǎng)絡(luò)中以增強(qiáng)行人檢測(cè)。實(shí)驗(yàn)結(jié)果表明,該方法在Caltech數(shù)據(jù)集上獲得了6.27%的最佳檢測(cè)性能,并在CityPersons數(shù)據(jù)集上獲得了競(jìng)爭(zhēng)性能,同時(shí)保持了較高的計(jì)算效率。
-
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1699瀏覽量
46049 -
論文
+關(guān)注
關(guān)注
1文章
103瀏覽量
14969 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13892瀏覽量
166687
原文標(biāo)題:CVPR 2019 無(wú)人駕駛相關(guān)論文合集(附下載鏈接)
文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論