作者:匡吉
自動駕駛技術(shù)在20世紀(jì)初的概念和實驗主要集中在車輛自動化和遙控方面。到了20世紀(jì)80年代和90年代,隨著計算機技術(shù)和人工智能的發(fā)展,自動駕駛技術(shù)開始取得顯著進展。這一時期,一些大學(xué)和研究機構(gòu)開始開發(fā)原型車輛,能夠在特定條件下實現(xiàn)自動駕駛。
進入21世紀(jì),自動駕駛技術(shù)迎來了快速發(fā)展期。隨著傳感器、算法、計算能力和大數(shù)據(jù)技術(shù)的進步,多家科技公司和汽車制造商開始投入巨資研發(fā)自動駕駛車輛。 目前,自動駕駛技術(shù)正處于逐步成熟階段,雖然還面臨著技術(shù)、法律、倫理和安全等多方面的挑戰(zhàn),但其發(fā)展?jié)摿θ匀徊豢尚∮U,將對交通安全、效率、環(huán)境保護等產(chǎn)生深遠(yuǎn)影響。 本文,我們將梳理自動駕駛技術(shù)的進化與發(fā)展。
如圖1是自動駕駛的經(jīng)典框架,其中,最為重要的任務(wù)是場景理解任務(wù),這一任務(wù)在學(xué)術(shù)文章中常常稱之為感知任務(wù),伴隨AI技術(shù)蓬勃發(fā)展,感知任務(wù)也在不斷刷新其性能上限。為輔助車輛控制系統(tǒng),以及理解周圍環(huán)境,自動駕駛系統(tǒng)使用了各種感知技術(shù),最為重要且廣為人知的就是:SLAM(同步定位與建圖)和BEV(鳥瞰視圖)技術(shù)。這些技術(shù)賦予車輛無論在靜止還是移動的狀態(tài)下,理解自身位置、檢測周圍障礙物、以及估計障礙物方向和距離的能力,這些能力為后續(xù)駕駛決策提供信息。
▲圖1|經(jīng)典的自動駕駛框架
SLAM+DL:第一代自動駕駛技術(shù)
■2.1 簡介
開門見山,第一代自動駕駛感知技術(shù),是以SLAM算法結(jié)合深度學(xué)習(xí)技術(shù)相結(jié)合為代表的。第一代自動駕駛感知技術(shù)框架中的多種任務(wù),例如:目標(biāo)檢測和語義分割任務(wù),都必須和輸入數(shù)據(jù)處于相同坐標(biāo)系統(tǒng)下實施。如下圖2所示,唯一例外的是相機感知任務(wù),它是在2D圖像的透視空間中運行的。但是,為了從2D空間升級到3D空間,2D檢測任務(wù)需要很多關(guān)于傳感器融合的手動規(guī)則,例如使用雷達或者激光雷達等傳感器進行3D測量。因此,傳統(tǒng)感知系統(tǒng)通常需要在與車載攝像機圖像相同的空間內(nèi)進行處理。為了將2D空間中的位置信息更新到3D空間,后續(xù)的預(yù)測和規(guī)劃任務(wù)常常用于多傳感器融合,如借助毫米波雷達或激光雷達等有源傳感器。
▲圖2?SLAM+DL的自動駕駛技術(shù)框架
■2.2問題和挑戰(zhàn)
但是,上述基于SLAM+DL的第一代自動駕駛技術(shù)暴露出越來越多的問題: 1)整個自動駕駛系統(tǒng)最上游的是感知模塊,尤其當(dāng)傳感器的類型和數(shù)量變的越來越復(fù)雜,如何融合持續(xù)輸入的多模態(tài)和不同視圖數(shù)據(jù),并實時輸出下游所需的一系列任務(wù)結(jié)果,成為自動駕駛的核心挑戰(zhàn)。 2)感知環(huán)節(jié)通常會消耗車輛的大部分算力。在感知過程中,系統(tǒng)需要融合不同視角攝像頭的視覺數(shù)據(jù)以及毫米波雷達、激光雷達等傳感器的數(shù)據(jù),這給模型設(shè)計和工程實現(xiàn)帶來了挑戰(zhàn)。在傳統(tǒng)的融合后處理方法中,每個傳感器對應(yīng)一個神經(jīng)網(wǎng)絡(luò),無法充分發(fā)揮多傳感器融合的優(yōu)勢,而且計算量大、耗時長。此外,如果多個任務(wù)簡單地共享一個骨干網(wǎng)絡(luò),很容易導(dǎo)致每個任務(wù)難以同時獲得優(yōu)異的性能,如圖3所示。
▲圖3|一種多模態(tài)融合算法示意圖
■3.1 BEV方案基本流程 ·簡介 BEV(鳥瞰視圖)模型
基于多個攝像頭甚至不同傳感器,可以被視為解決上述SLAM+DL第一代自動駕駛技術(shù)問題的潛在技術(shù)方案,本文將BEV+Transformer結(jié)合技術(shù)成為自動駕駛感知2.0時代。如圖4所示,BEV以鳥瞰圖視角呈現(xiàn)車輛信息,是自動駕駛系統(tǒng)中跨攝像頭和多模態(tài)融合的體現(xiàn)。其核心思想是將傳統(tǒng)的2D圖像感知轉(zhuǎn)為3D感知。對于BEV感知來說,關(guān)鍵在于將2D圖像作為輸入并輸出3D感知幀,而如何在多攝像頭視角下高效優(yōu)雅地獲得最佳特征表示仍是一個難題。
目前,基于多視角相機的BEV3D物體檢測感知任務(wù),受到越來越多的關(guān)注。如圖5所示,在BEV視圖下,統(tǒng)一和描述不同視角的信息是非常直觀自然的,這為后續(xù)規(guī)劃和控制模塊的任務(wù)提供了便利。此外,BEV視圖下的物體在2D視角下不存在遮擋和比例問題,有助于提高檢測性能。BEV模型還有助于提高感知融合的性能,并通過統(tǒng)一的模型實現(xiàn)從純視覺感知到多傳感器融合解決方案的邏輯一致性,從而降低額外的開發(fā)成本。
▲圖5|純視覺的端到端規(guī)劃框架
· BEV技術(shù)方法 目前為止,BEV研究主要基于深度學(xué)習(xí)方法。根據(jù)BEV特征信息的組織方式,主流方法可分為不同架構(gòu)的模式。
■3.2 自底向上?vs.?自頂向下
· 自底向上方法 自底向上法采用了從2D到3D的模式:
1)首先,在2D視圖下估計每個像素的深度信息,然后基于相機內(nèi)外參數(shù)將圖像映射到BEV空間。 ?
2)然后,通過融合多個視圖生成BEV特征。
這種方法的早期代表方法是LSS(Lift、Splat、Shoot),如圖6所示,它構(gòu)建了一個簡單而有效的處理過程:
1)將2D相機圖像投射到3D場景中;
2)然后從上帝視角把得到的3D場景“壓扁”,形成BEV視圖。
平面場景符合人們對地圖的直觀感覺,雖然已經(jīng)獲得了三維場景數(shù)據(jù),但并不是完整的三維數(shù)據(jù),因為從 BEV 的角度來看,無法獲得準(zhǔn)確的三維高度信息,所以需要將其扁平化。自下而上法的核心步驟是:
1)拉升----在對每幅相機圖像進行圖像平面下采樣后,準(zhǔn)確估計特征點的深度分布,并獲得包含圖像特征的視錐(點云);
2)拍打----結(jié)合攝像機的內(nèi)部和外部參數(shù),將所有攝像機的視錐(點云)分布到 BEV 網(wǎng)格中,并對每個網(wǎng)格中的多個視錐點進行求和匯集計算,形成BEV 特征圖;
3)拍攝----使用任務(wù)頭處理 BEV 特征圖,輸出感知結(jié)果。
LSS 和 BEVDepth等算法基于 LSS 框架進行了優(yōu)化,是 BEV 算法的經(jīng)典之作。 · 自頂向下方法 自頂向下法采用了從3D到2D的模式:
1)這類方法首先初始化BEV空間中的特征;
2)然后通過一個多層的Transformer與每個圖像特征進行交互,得到與之對應(yīng)的BEV特征。
Transformer 是谷歌在 2017 年提出的一種基于注意力機制的神經(jīng)網(wǎng)絡(luò)模型。與傳統(tǒng)的 RNN 和 CNN 不同,Transformer 通過注意力機制挖掘序列中不同元素之間的聯(lián)系和關(guān)聯(lián),從而適應(yīng)不同長度和結(jié)構(gòu)的輸入。Transformer 首先在自然語言處理(NLP)領(lǐng)域取得了巨大成功,隨后被應(yīng)用于計算機視覺(CV)任務(wù),并取得了顯著效果。 這種自頂向下的方法逆轉(zhuǎn)了 BEV 的構(gòu)建過程,利用 Transformer 的全局感知能力從多個透視圖像的特征中查詢相應(yīng)信息,并將這些信息融合和更新到BEV 特征圖中。特斯拉在其 FSD Beta 軟件視覺感知模塊中采用了這種自上而下的方法,并在特斯拉 AI-Day上展示了有關(guān) BEVFormer的更多技術(shù)理念。
■3.3?純視覺還是多傳感器融合?
BEV 目前已經(jīng)是自動駕駛領(lǐng)域一個龐大的算法家族,包括不同方向的算法選擇。其中,以視覺感知為主的流派由特斯拉主導(dǎo),核心算法建立在多個攝像頭上。另一大流派是融合派,利用激光雷達、毫米波雷達和多個攝像頭進行感知。許多自動駕駛公司都采用了融合式算法,谷歌的 Waymo 也是如此。從輸入信號的角度來看,BEV 可分為視覺流派和激光雷達流派。
· BEV相機
BEV 相機指的是基于多個視角的圖像序列,算法需要將這些視角轉(zhuǎn)換為 BEV 特征并對其進行感知,例如輸出物體的三維檢測幀或在俯視圖下進行語義分割。與激光雷達相比,視覺感知具有更豐富的語義信息,但缺乏精確的深度測量。此外,BEV 的 DNN 模型需要在訓(xùn)練階段指出照片中的每個物體是什么,并在標(biāo)注數(shù)據(jù)上標(biāo)注各種物體。如果遇到訓(xùn)練集中沒有的物體類型,或者模型表現(xiàn)不佳,就會出現(xiàn)問題。 為了解決這個問題,Occupancy Network改變了感知策略,不再強調(diào)分類,而是關(guān)注道路上是否有障礙物。這種障礙物可以用三維積木來表示,有些地方稱之為體素(voxel)。這種方法更為貼切,無論障礙物的具體類型如何,都能保證不撞擊障礙物。 特斯拉正在經(jīng)歷從 BEV 技術(shù)(鳥瞰圖)到新技術(shù)--occupancy network(占用網(wǎng)絡(luò))的過渡,從二維到三維。無論是二維還是三維,它們都致力于描述車輛周圍空間的占用情況,但使用的表示方法不同。在二維 BEV 中,我們使用類似棋盤的方法來表達環(huán)境中的占用情況;而在三維占用網(wǎng)絡(luò)中,它們使用類似積木的體素來表達。 具體來說,在 BEV 技術(shù)中,深度學(xué)習(xí)模型(DNN)通過概率來衡量不同位置的占用率,通常將物體分為兩類:
1)不經(jīng)常變化的物體,如車輛可通過區(qū)域(Driveable)、路面(Road )、車道(Lane)、建筑物(Building)、植被(Foliage/Vegetation)、停車區(qū)域(Parking)、信號燈(TrafficLight)以及一些未分類的靜態(tài)物體(Static),這些類別可以相互包含。
2)另一類是可變物體,即會移動的物體,如行人(Pedestrian)、汽車(Car)、卡車(Truck)、錐形交通標(biāo)志/安全桶(TrafficCone)等。
這種分類的目的是幫助自動駕駛系統(tǒng)進行后續(xù)的駕駛規(guī)劃和控制。在BEV的感知階段,算法根據(jù)物體出現(xiàn)在網(wǎng)格上的概率進行打分,并通過Softmax函數(shù)對概率進行歸一化處理,最后選擇概率最高的物體類型對應(yīng)的網(wǎng)格作為占據(jù)網(wǎng)格的預(yù)測結(jié)果。
▲圖7|BEVFormer流程
BEVFormer的詳細(xì)流程如下:
1)使用基干和脖頸模塊(使用 ResNet-101-DCN + FPN)從環(huán)視圖像中提取多尺度特征。
2)編碼器模塊(包括時間自注意力模塊和空間交叉注意力模塊)使用本文提出的方法將環(huán)視圖像特征轉(zhuǎn)換為 BEV 特征。
3)與可變形 DETR 的解碼器模塊類似,它完成三維物體檢測的分類和定位任務(wù)。
4)使用匈牙利匹配算法定義正負(fù)樣本,并使用 Focal Loss + L1 Loss 作為總損失來優(yōu)化網(wǎng)絡(luò)參數(shù)。
5)計算損失時使用 Focal Loss 分類損失和 L1 Loss 回歸損失,然后執(zhí)行反向傳播并更新網(wǎng)絡(luò)模型參數(shù)。
在算法創(chuàng)新方面,BEVFormer 采用 Transformer 和時間結(jié)構(gòu)來聚合時空信息。它利用預(yù)定義的網(wǎng)格狀 BEV 查詢與空間/時間特征進行交互,以查找和聚合時空信息。這種方法能有效捕捉三維場景中物體的時空關(guān)系,并生成更強大的表征。這些創(chuàng)新使 BEVFormer 能夠更好地處理環(huán)境中的物體檢測和場景理解任務(wù)。 · BEV融合
▲圖8|奔馳智能駕駛配備的傳感器套件
BEV 融合學(xué)派在自動駕駛領(lǐng)域的主要任務(wù)是融合各種傳感器的數(shù)據(jù),如圖 8所示,包括攝像頭、激光雷達、GNSS(全球?qū)Ш叫l(wèi)星系統(tǒng))、里程表、高精度地圖(HD-Map)、CAN總線等。這種融合機制可以充分利用各個傳感器的優(yōu)勢,提高自動駕駛系統(tǒng)對周圍環(huán)境的感知和理解能力。 除了攝像頭,融合學(xué)派還關(guān)注激光雷達的數(shù)據(jù)。與毫米波雷達相比,激光雷達的數(shù)據(jù)質(zhì)量更高,因此毫米波雷達逐漸退出了主要用途,在一些車輛中繼續(xù)充當(dāng)停車?yán)走_。
然而,毫米波雷達仍有其獨特的價值,尤其是在自動駕駛領(lǐng)域技術(shù)日新月異的背景下。新算法可能會讓毫米波雷達重新發(fā)揮作用。 激光雷達的優(yōu)勢在于可以直接測量物體的距離,其精度遠(yuǎn)高于視覺推測的場景深度。激光雷達通常將測量結(jié)果轉(zhuǎn)化為深度數(shù)據(jù)或點云,這兩種數(shù)據(jù)形式的應(yīng)用歷史悠久,成熟的算法可以直接借鑒,從而減少開發(fā)工作量。此外,激光雷達在夜間或惡劣天氣條件下仍能正常工作,而相機在這種情況下可能會受到很大影響,導(dǎo)致無法準(zhǔn)確感知周圍環(huán)境。 總之,融合學(xué)派的目標(biāo)是有效整合多傳感器數(shù)據(jù),使自動駕駛系統(tǒng)在各種復(fù)雜條件下獲得更全面、更準(zhǔn)確的環(huán)境感知,從而提高駕駛的安全性和可靠性。融合技術(shù)在自動駕駛領(lǐng)域發(fā)揮著關(guān)鍵作用。它融合了來自不同傳感器的信息,使整個系統(tǒng)能更好地感知和理解周圍環(huán)境,做出更準(zhǔn)確的決策和計劃。
■4.1 為什么是BEV感知?
首先,自動駕駛是一個 3D 或 BEV 感知問題。使用 BEV 視角可以提供更全面的場景信息,幫助車輛感知周圍環(huán)境并做出準(zhǔn)確決策。在傳統(tǒng)的二維視角中,由于透視效應(yīng),物體可能會出現(xiàn)遮擋和比例問題,而 BEV 視角可以有效解決這些問題。 與以往自動駕駛領(lǐng)域基于正視圖或透視圖進行檢測、分割、跟蹤等任務(wù)的大多數(shù)模型相比,BEV 表示法能使模型更好地識別遮擋的車輛,有利于后續(xù)模塊(如預(yù)測、規(guī)劃控制)的開發(fā)和部署。同時,它還能將二維圖像特征精確轉(zhuǎn)換為三維特征,并能將提取的 BEV 特征應(yīng)用于不同的探測頭。 另一個重要原因是促進多模態(tài)融合。自動駕駛系統(tǒng)通常使用多種傳感器,如攝像頭、激光雷達、毫米波雷達等。BEV視角可以將不同傳感器的數(shù)據(jù)統(tǒng)一表達在同一平面上,這使得傳感器數(shù)據(jù)的融合和處理更加方便。在現(xiàn)有技術(shù)中,將單視角檢測擴展到多視角檢測是不可行的。 這是因為單視角檢測器只能處理單個攝像頭的圖像數(shù)據(jù),而在多視角的情況下,檢測結(jié)果需要根據(jù)相應(yīng)攝像頭的內(nèi)外部參數(shù)進行轉(zhuǎn)換,才能完成多視角檢測。然而,這種簡單的后處理方法無法用于數(shù)據(jù)驅(qū)動訓(xùn)練,因為變換是單向的,無法反向區(qū)分不同特征的坐標(biāo)系原點。這使得我們無法輕松地使用端到端訓(xùn)練模型來改進自動感知系統(tǒng)。為了解決這些問題,基于變換器的 BEV 感知技術(shù)應(yīng)運而生。 總之,對于攝像頭的感知而言,轉(zhuǎn)向 BEV 將大有裨益:
1)直接在 BEV 中執(zhí)行攝像頭感知可直接與雷達或激光雷達等其他模式的感知結(jié)果相結(jié)合,因為它們已在 BEV中表示和使用。BEV 空間中的感知結(jié)果也很容易被預(yù)測和規(guī)劃等下游組件使用。
2)純粹通過手工創(chuàng)建的規(guī)則將 2D 觀察結(jié)果提升到 3D 是不可擴展的。BEV 表示法有助于向早期融合管道過渡,使融合過程完全由數(shù)據(jù)驅(qū)動。
3)在沒有雷達或激光雷達的純視覺系統(tǒng)中,通過BEV 執(zhí)行感知任務(wù)幾乎是強制的,因為在傳感器融合中沒有其他三維線索可用于執(zhí)行這種視圖轉(zhuǎn)換。之所以選擇從 BEV 的角度進行感知,是為了提高感知的準(zhǔn)確性和穩(wěn)定性,并為多模態(tài)融合和端到端優(yōu)化創(chuàng)造條件,從而推動自動駕駛技術(shù)的發(fā)展。
■4.2 為什么是BEV+Transformer?
為什么?"BEV+Transformer "會成為主流模式?其背后的關(guān)鍵在于?"第一原則",即智能駕駛應(yīng)該越來越接近?"像人一樣駕駛",而映射到感知模型本身,BEV 是一種更自然的表達方式,由于全局注意力機制,變形器更適合進行視圖轉(zhuǎn)換。目標(biāo)域中的每個位置訪問源域中任何位置的距離都是相同的,克服了 CNN 中卷積層感受野的局部局限性。此外,與傳統(tǒng)的 CNN 相比,視覺轉(zhuǎn)換器還有幾個優(yōu)勢:更好的可解釋性和更好的靈活性。隨著產(chǎn)學(xué)研的推進,BEV+Transformer 最近已從普及走向量產(chǎn),這在當(dāng)前智能駕駛的商業(yè)顛覆背景下或許是一個難得的亮點。
1. 數(shù)據(jù)采集和預(yù)處理 BEV 透視需要進行大量的數(shù)據(jù)采集和預(yù)處理,這對場景感知的性能和效果有著重要影響。其中,需要解決多相機圖像融合、數(shù)據(jù)對齊、畸變校正等問題。同時,變換器需要海量數(shù)據(jù),如何獲取高質(zhì)量的海量數(shù)據(jù)也是一個重要的研究課題。 2. Transformer是暴力美學(xué),模型體積驚人,其計算會消耗大量的存儲和帶寬空間。對于芯片而言,除了相應(yīng)的運算器適配和底層軟件優(yōu)化外,還需要對緩存和帶寬進行優(yōu)化,要求也隨之提高。與此同時,還需要對模型進行優(yōu)化。
▲圖9|模型優(yōu)化性能對比圖
3. 更多傳感器融合:?目前,BEV 透視技術(shù)主要使用激光雷達和攝像頭等傳感器進行數(shù)據(jù)采集和處理,但仍需要更多傳感器的融合,如圖10所示的毫米波雷達、GPS等,以提高數(shù)據(jù)的準(zhǔn)確性和全面性。
▲圖10|更多的傳感器數(shù)據(jù)融合
4. 穩(wěn)健優(yōu)化:BEV 在復(fù)雜環(huán)境中的應(yīng)用面臨諸多挑戰(zhàn),如天氣變化、光照變化、目標(biāo)遮擋、對抗性攻擊等。未來有必要加強算法的魯棒優(yōu)化,以提高系統(tǒng)的穩(wěn)定性和可靠性。
5. 應(yīng)用場景更多:BEV 技術(shù)的應(yīng)用場景非常廣泛,包括自動駕駛、智能交通、物流配送、城市規(guī)劃等領(lǐng)域,如圖12中的機器人。自動駕駛與 BEV 的融合可以提供全方位的場景信息,有利于車輛準(zhǔn)確感知周圍的物體和環(huán)境,實現(xiàn)高效、安全的自動駕駛。BEV視角下的智能交通可以提供更直觀、更全面的路況信息,有利于實現(xiàn)高效的路況監(jiān)測和交通管理,提高城市交通的效率和安全性。物流配送與 BEV 的結(jié)合可以提供更準(zhǔn)確、更全面的貨物位置和空間信息,有利于實現(xiàn)高效的物流配送,提高物流效率和服務(wù)質(zhì)量。未來,應(yīng)用領(lǐng)域還可以進一步拓展,如農(nóng)業(yè)、礦業(yè)等領(lǐng)域,滿足不同領(lǐng)域的需求。
▲圖12|BEV在機器人領(lǐng)域中的應(yīng)用
總結(jié)
從行業(yè)發(fā)展趨勢來看,BEV 模式及其應(yīng)用或?qū)⒊蔀橹髁髭厔?。這意味著從芯片開始,傳感器芯片、攝像頭、軟件算法等都需要快速適應(yīng),快速實現(xiàn)解決方案。 綜上所述,BEV 是繼深度學(xué)習(xí)之后的又一新高度,它解決了以往多傳感器變化和異構(gòu)帶來的各種融合感知算法的發(fā)展難題。從原理上講,與傳統(tǒng)的感知算法相比,BEV 的輸入相同,都是多通道傳感器信息,最后直接輸出三維空間規(guī)劃和控制所需的輸出形式。BEV 基于二維數(shù)據(jù),提供鳥瞰視角,與 SLAM 相輔相成,為自動駕駛的發(fā)展和實現(xiàn)帶來了更多可能。隨著技術(shù)的不斷進步,感知模塊也將不斷發(fā)展,更高效、更精準(zhǔn)的感知技術(shù)將推動自動駕駛技術(shù)走向更廣闊的未來,為人類社會的進步貢獻更多價值。
審核編輯:黃飛
評論
查看更多