近日,地平線兩篇論文入選國(guó)際計(jì)算機(jī)視覺(jué)頂會(huì)ECCV 2024,自動(dòng)駕駛算法技術(shù)再有新突破。
ECCV(European Conference on Computer Vision,即歐洲計(jì)算機(jī)視覺(jué)國(guó)際會(huì)議),是計(jì)算機(jī)視覺(jué)領(lǐng)域中最頂級(jí)的會(huì)議之一,與ICCV(International Conference on Computer Vision)和CVPR(Conference on Computer Vision and Pattern Recognition)并稱(chēng)為計(jì)算機(jī)視覺(jué)領(lǐng)域的“三大頂會(huì)”。ECCV每?jī)赡昱e行一次,吸引了全球頂尖的研究人員、學(xué)者和業(yè)界專(zhuān)家,分享最新的研究成果與技術(shù)創(chuàng)新。
聚創(chuàng)新之力 答智駕課題
本次地平線被錄用的2篇論文是:
1、Lane Graph as Path: Continuity-preserving Path-wise Modeling for Online Lane Graph Construction
(《LaneGAP:用于在線車(chē)道圖構(gòu)建的連續(xù)性路徑建?!罚?/p>
論文鏈接:https://arxiv.org/abs/2303.08815
2、Occupancy as Set of Points
(《OSP:基于點(diǎn)集表征的占據(jù)網(wǎng)格預(yù)測(cè)》)
論文鏈接:https://arxiv.org/abs/2407.04049
車(chē)道圖構(gòu)建新方案:
端到端學(xué)習(xí)路徑,大幅提升預(yù)測(cè)規(guī)劃性能
在線車(chē)道圖構(gòu)建是自動(dòng)駕駛領(lǐng)域一項(xiàng)有前途但具有挑戰(zhàn)性的任務(wù)。LaneGAP 是一種車(chē)道圖構(gòu)建新方法,將端到端矢量地圖在線構(gòu)建方法 MapTR(入選深度學(xué)習(xí)頂會(huì)ICLR spotlight論文)拓展到道路拓?fù)浣?,能夠大幅提升預(yù)測(cè)規(guī)劃性能,應(yīng)對(duì)各種復(fù)雜交通狀況。LaneGAP 和 MapTR 相關(guān)工作已經(jīng)在地平線高階智駕系統(tǒng)SuperDrive中落地應(yīng)用。
具體而言,以前的方法通常在像素或片段級(jí)別對(duì)車(chē)道圖進(jìn)行建模,并通過(guò)逐像素或分段連接恢復(fù)車(chē)道圖,這會(huì)破壞車(chē)道的連續(xù)性。作者提出一種基于路徑的在線車(chē)道圖構(gòu)建方法—— LaneGAP,它采用了端到端學(xué)習(xí)路徑,并通過(guò) Path2Graph 算法恢復(fù)車(chē)道圖。LaneGAP在具有挑戰(zhàn)性的 nuScenes 和 Argoverse2 數(shù)據(jù)集上定性和定量地證明了 LaneGAP 優(yōu)于傳統(tǒng)的基于像素和基于片段的方法。豐富的可視化效果顯示 LaneGAP 可以應(yīng)對(duì)各種復(fù)雜交通狀況。
Occupancy新突破:
全新視角,性能更強(qiáng)大,計(jì)算更靈活
OSP提出了全新視角下的自動(dòng)駕駛場(chǎng)景建模算法——稀疏點(diǎn)集占據(jù)網(wǎng)格預(yù)測(cè)方法,通過(guò)與2D圖像特征交互的點(diǎn)查詢,建立了一種新的基于點(diǎn)的占用表示,可以全面理解3D場(chǎng)景,并且框架更靈活,性能更強(qiáng)大。
本文探索了利用多視角圖像進(jìn)行3D占據(jù)網(wǎng)格預(yù)測(cè)的新方法,稱(chēng)為“點(diǎn)集占據(jù)網(wǎng)格”。現(xiàn)有方法傾向于利用BEV表征進(jìn)行占據(jù)網(wǎng)格預(yù)測(cè),因此很難將注意力集中在特殊區(qū)域或感知范圍之外的區(qū)域。相比之下,本文提出了Points of Interest (PoIs) 來(lái)表示場(chǎng)景,并提出了 OSP,一種基于點(diǎn)的 3D 占用預(yù)測(cè)的新框架。得益于點(diǎn)集表征的靈活性,OSP 與現(xiàn)有方法相比實(shí)現(xiàn)了強(qiáng)大的性能,并且在訓(xùn)練和推理適應(yīng)性方面表現(xiàn)出色:可以預(yù)測(cè)感知邊界外的范圍;可以與基于體特征的方法集成以提升性能。在Occ3D nuScenes占用基準(zhǔn)上的實(shí)驗(yàn)表明,OSP具有強(qiáng)大的性能和靈活性。
除了這兩篇斬獲ECCV 2024的最新成果,地平線在ICCV 2023上提出的VAD也有創(chuàng)新進(jìn)展。VADv2首次提出基于概率建模的多模態(tài)決策端到端自動(dòng)駕駛大模型,在閉環(huán)榜單Carla Town05 Benchmark上達(dá)到SOTA的端到端自動(dòng)駕駛規(guī)劃性能。
此前,VAD初步探索了基于矢量化場(chǎng)景表征的端到端自動(dòng)駕駛算法框架,在此基礎(chǔ)上,VADv2首次將多模態(tài)概率規(guī)劃引入端到端自動(dòng)駕駛,用于解決判決式模型無(wú)法建模決策的天然多模態(tài)特性的問(wèn)題,從而有效提升決策的準(zhǔn)確率。VADv2以數(shù)據(jù)驅(qū)動(dòng)的范式從大量駕駛數(shù)據(jù)中端到端學(xué)習(xí)駕駛策略,在Carla閉環(huán)榜單上,相比于此前的方案,VADv2大幅提升駕駛評(píng)分,實(shí)現(xiàn)SOTA性能,在無(wú)需規(guī)則后處理的情況下也能有良好的駕駛表現(xiàn)。
于7月21日-27日,正在奧地利維也納舉辦的2024國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML 2024)上,地平線被ICML 2024接收的最新工作Vision Mamba(簡(jiǎn)稱(chēng)Vim)也受邀做了分享。Vision Mamba是一種新的通用視覺(jué)主干模型,相比現(xiàn)有的視覺(jué)Transformer,在性能上有顯著提升,是接替Transformer的下一代視覺(jué)基礎(chǔ)模型。
Vision Mamba使用雙向狀態(tài)空間模型(SSM)對(duì)圖像序列進(jìn)行位置嵌入,并利用雙向SSM壓縮視覺(jué)表示。在ImageNet分類(lèi)、COCO目標(biāo)檢測(cè)和ADE20k語(yǔ)義分割任務(wù)中,Vim相比現(xiàn)有的視覺(jué)Transformer(如DeiT)在性能上有大幅提升,同時(shí)在計(jì)算和內(nèi)存效率上也有顯著改進(jìn)。例如,在進(jìn)行分辨率為1248×1248的批量推理時(shí),Vim比DeiT快2.8倍,GPU內(nèi)存節(jié)省86.8%。這些結(jié)果表明,Vim能夠克服在高分辨率圖像理解中執(zhí)行Transformer樣式的計(jì)算和內(nèi)存限制,具有成為下一代視覺(jué)基礎(chǔ)模型主干的潛力。
地平線「你好,開(kāi)發(fā)者」直播預(yù)告
為了讓智駕開(kāi)發(fā)者更深入地了解這些最新的研究成果與算法創(chuàng)新,地平線策劃推出2024年「你好,開(kāi)發(fā)者」自動(dòng)駕駛技術(shù)專(zhuān)場(chǎng),邀請(qǐng)到地平線各位技術(shù)專(zhuān)家進(jìn)行直播分享。敬請(qǐng)關(guān)注!
-
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
8文章
1698瀏覽量
45993 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13812瀏覽量
166457 -
地平線
+關(guān)注
關(guān)注
0文章
343瀏覽量
14957
原文標(biāo)題:地平線自動(dòng)駕駛算法新突破,科研論文入選學(xué)術(shù)頂會(huì) ECCV 2024
文章出處:【微信號(hào):horizonrobotics,微信公眾號(hào):地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論