2023年城市NOA成為自動駕駛新的戰(zhàn)場,各車企紛紛發(fā)布新產(chǎn)品、立下新目標(biāo),要在高階輔助駕駛的賽場上大展身手。感知模塊作為自動駕駛流程中的第一環(huán),也是將物理世界與車機大腦相連接的重要一環(huán)。如何讓汽車像人類一樣,將“眼前所看”轉(zhuǎn)化為“腦中所想”,進一步變成“所作所為”,對于算法模型有很大的考驗?;赥ransformer模型的BEV技術(shù)成為當(dāng)下的熱門選擇。 億歐汽車始終關(guān)注智能電動汽車領(lǐng)域的技術(shù)進展與商業(yè)動態(tài),特此撰寫B(tài)EV+Transformer系列文章,從技術(shù)、商業(yè)、趨勢三個維度分別入手,深度剖析自動駕駛感知模塊發(fā)展的新浪潮。
01??高階智能駕駛感知模塊:汽車成為機器生物的第一步
實現(xiàn)高級輔助駕駛乃至自動駕駛的第一步就是感知,如何更準確、高效地感知到路面信息是智駕系統(tǒng)良好運轉(zhuǎn)的起點。路面信息包括靜態(tài)和動態(tài)兩類,靜態(tài)信息包括墻壁、立桿、車道線、車位線、斑馬線等,以及其他路面障礙物,動態(tài)信息則是指行人、車輛等其他交通參與方。 正如時任特斯拉Autopilot負責(zé)人Andrej Karpathy在2021年Tesla AI DAY上所講,自動駕駛研發(fā)像是“從頭開始合成人造動物”,從人眼所及到大腦所感,信息在人類頭腦中經(jīng)歷了2D到3D的轉(zhuǎn)換,而這一轉(zhuǎn)換同樣是高階智能駕駛的感知模塊所需要學(xué)習(xí)的能力。
02 ?感知路線:純視覺與多模態(tài)融合兩條路線并行
從感知角度來劃分,目前高階智能駕駛領(lǐng)域分為兩派,一派為特斯拉和mobileye堅持的純視覺感知技術(shù)路線,其余則大多選擇多傳感器融合的技術(shù)路線。 純視覺感知方案只需將攝像頭收集到的圖像數(shù)據(jù)進行特征提取、處理、轉(zhuǎn)化為3D數(shù)據(jù);而多傳感器融合的方案采用攝像頭與激光雷達相結(jié)合,通過多種工作原理提升感知精度,也能在某一設(shè)備失效的情況下起到冗余的安全防護作用。但多傳感器方案中,不同工作原理下,傳感器收集到的數(shù)據(jù)類型、所處坐標(biāo)系都不同,攝像頭收集到的視覺數(shù)據(jù)屬于2D圖像空間,激光雷達獲得的點云數(shù)據(jù)屬于3D空間,處理與融合這些數(shù)據(jù)的策略及路徑成為有效保留數(shù)據(jù)信息的關(guān)鍵。
03? 融合方式:不同邏輯下數(shù)據(jù)處理各有利弊
具體來講,基于融合的不同位置,可以分為前、中、后融合三種方式,三種方式分別發(fā)生在數(shù)據(jù)處理的不同階段,在信息保留、算力使用、通信速率等多方面也具有不同特征。
3.1? 后融合:應(yīng)用廣泛但存在先驗式局限
在BEV大范圍應(yīng)用前,最常用的是后融合方案,也稱為“目標(biāo)級融合”。 顧名思義,后融合方案中,不同傳感器獲得的數(shù)據(jù)通過不同網(wǎng)絡(luò)算法獨立處理,處理后得到各自的目標(biāo)數(shù)據(jù),再將目標(biāo)數(shù)據(jù)在決策層由主處理器進行融合。
例如,針對圖像數(shù)據(jù),算法逐張?zhí)崛?D特征后,對應(yīng)轉(zhuǎn)化到3D空間中,得出物體邊界信息;針對點云數(shù)據(jù),算法直接進行3D檢測得到對應(yīng)結(jié)果。各自處理后,所有的輸出結(jié)果通過基于規(guī)則的(rule-based)融合方式融合到同一坐標(biāo)系中。 可見,在融合之前,不同數(shù)據(jù)處于各自的處理通道中,算法只需適配對應(yīng)類型的數(shù)據(jù),融合模塊設(shè)置不同場景、不同傳感器的置信度,最終輸出融合結(jié)果用于決策。整體更易解耦,既易于整車廠自主研發(fā),也便于Tier 1按照下游需求進行模塊化定制。 但是,正是由于后融合方式是基于規(guī)則處理的,因而存在“從結(jié)果反推過程”的先驗式思路,無論是不同數(shù)據(jù)處理過程中的目標(biāo)識別,還是對傳感器置信度的設(shè)置,都是以預(yù)設(shè)結(jié)果為導(dǎo)向的,不僅會造成信息損耗、成本升高,也難以突破當(dāng)下認知局限。
3.2 前融合:融合形成超級傳感數(shù)據(jù),但算力要求高
與之對應(yīng)的,是傳感器前融合方案,也稱為“數(shù)據(jù)級融合”。 前融合方案將融合步驟前置,所有傳感器的識別結(jié)果連同其他自動駕駛所需數(shù)據(jù),統(tǒng)一融合到為一整組數(shù)據(jù),再將融合后的所有數(shù)據(jù)依據(jù)目標(biāo)進行感知。 前融合方案下,相當(dāng)于不同的傳感器組合為一個更加超級、多能的傳感器,既能看圖、又能探測,感知算法無需區(qū)分數(shù)據(jù)來源與類型,直接進行綜合處理。
顯然,前融合方案的邏輯更加類似于人眼到大腦的工作方式,將所有數(shù)據(jù)整體分析,增強了數(shù)據(jù)關(guān)聯(lián)性,也減少了信息丟失。 但與此同時,異構(gòu)數(shù)據(jù)的融合對于算法也有著極大的考驗。首先龐大的數(shù)據(jù)量對于存儲能力、算力都有較高要求,而且由于坐標(biāo)系的不同,不同數(shù)據(jù)間的轉(zhuǎn)換效率和效果也需要不同的算法邏輯來實現(xiàn)。
3.3 中融合:平衡規(guī)則局限與算力要求,適應(yīng)BEV視角
基于架構(gòu)特性和操作可行性,目前業(yè)內(nèi)更青睞中融合方案,即“特征級融合”,這一方案也更適合BEV視角。
相較于前、后融合,中融合將特征提取置于融合之前,但將數(shù)據(jù)感知置于融合之后。換言之,中融合方案先通過神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)有效特征,將有效特征與BEV空間特征相融合,最終輸出BEV視角下的整套數(shù)據(jù),用于決策層的感知和輸出。 中融合方案中,數(shù)據(jù)處理更直接,信息損耗更少,相應(yīng)地,算力需求也一定程度降低,研發(fā)重點來到了神經(jīng)網(wǎng)絡(luò)模型的更新上。隨著深度學(xué)習(xí)的發(fā)展,Transformer的應(yīng)用突破了過往算法依賴人為規(guī)則所帶來的認知局限和邏輯上的反復(fù)。 04 ?視角轉(zhuǎn)換:前視放射轉(zhuǎn)為俯視全景,BEV+Transformer彌補原有不足 不同融合方案的選擇和迭代的背后,是感知視角的根本性轉(zhuǎn)換。
4.1 2D直視圖+CNN:感知不夠全面、連貫,后融合學(xué)習(xí)速度慢
在此之前,傳統(tǒng)的自動駕駛技術(shù)可以概括為“2D 直視圖+CNN”時代,路況感知信號由相機收集到的 2D 圖像和雷達收集到的 3D 圖像組成,感知數(shù)據(jù)基于每個傳感器的位置形成放射圖像,不同感知結(jié)果通過 CNN(卷積神經(jīng)網(wǎng)絡(luò))進行后融合,通過大量計算統(tǒng)一升維到 3D,符合 3D 狀態(tài)下車機行駛的坐標(biāo)系。 這樣的方式存在很多欠缺和隱患: · 畫面遮擋部分難以預(yù)測,矩形框標(biāo)注損失細節(jié),不夠精確; · 高度或深度方面認知存在誤差,坡度影響難以準確預(yù)測; · 缺少時間信息,感知與預(yù)測的連續(xù)性難以確認; · 多種感知信息進行后融合,時間與人力成本較高。 在這種情況下,感知的思路是將“所見”與“所學(xué)”相對應(yīng),試圖成功“認出”路上有什么,就難免出現(xiàn)“擋住了所以沒看見”“看見了但認錯了”“不認識就當(dāng)不存在”這些看似好笑、實則危險的情況。
4.2 BEV+Transformer:上帝視角減少前視局限,多模態(tài)數(shù)據(jù)融合是關(guān)鍵
1)路徑:從2D到3D到4D,算法推動端到端優(yōu)化 BEV+Transformer方案應(yīng)運而生。 BEV(Bird's Eye View),是指一種鳥瞰式的視角或坐標(biāo)系,可以立體描述感知到的現(xiàn)實世界,相當(dāng)于在車輛正上方10-20米處向下俯視車輛及周圍環(huán)境,也被叫做“上帝視角”。相對應(yīng)的,BEV也代指將視覺信息由圖像空間端到端地轉(zhuǎn)換到BEV空間下的技術(shù)。 在BEV視圖中,道路信息自上而下展示在以自車為中心的坐標(biāo)系中,避免了原先前視放射視角下的尺度、遮擋等感知問題,信息展示更加全面。但視角變化后深度的估計難度增大,前融合方案的處理難度增大,如何創(chuàng)新算法,將不同特征最優(yōu)化表達是目前BEV研究中的重點。 ?
盡管各家研發(fā)進度和細節(jié)略有不同,但BEV+Transformer方案的整體思路基本一致:“輸入-提取-轉(zhuǎn)換-融合-時序-輸出”,并在這個過程中完成“2D到3D到4D”的轉(zhuǎn)換。 · 輸入:將多個攝像頭數(shù)據(jù)輸入到共享的骨干網(wǎng)絡(luò)(Backbone) · 提?。汗歉删W(wǎng)絡(luò)提取攝像頭數(shù)據(jù)中的特征(feature) · 轉(zhuǎn)換:所有源于攝像頭數(shù)據(jù)的特征轉(zhuǎn)換到BEV空間中(2D->3D) · 融合:圖像數(shù)據(jù)特征與其他傳感器數(shù)據(jù)特征融合 · 時序:增加時序信息,形成具有時空連續(xù)性的感知信息(3D->4D) · 輸出:輸出感知結(jié)果,包括靜態(tài)語義地圖、動態(tài)目標(biāo)檢測以及運動預(yù)測等,用于決策規(guī)控 Transformer作為一種新型神經(jīng)網(wǎng)絡(luò)架構(gòu),相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(如CNN),可以直接進行2D、3D不同序列之間的轉(zhuǎn)換。Transformer采用交叉注意力機制,并行訓(xùn)練數(shù)據(jù),在跨模態(tài)融合以及時序融合過程中,能夠更加全面地在空間時序上建模,形成時序融合下的4D空間信息,從而使感知結(jié)果更加連續(xù)、穩(wěn)定。 在此基礎(chǔ)上,BEV算法進一步迭代為Occupancy Networks(占用網(wǎng)絡(luò)),更加直接地打造3D空間。有別于感知2D圖像、提取像素(pixel)轉(zhuǎn)化為3D特征,Occupancy Networks直接感知3D空間中的體素(voxel),也就是將世界劃分為多個大小一致的立方體,快速識別每個體素是否被占用,繼而判斷車輛是否要躲避。Occupancy Networks可以在10ms內(nèi)完成計算,感知更高效、結(jié)果更精準,將BEV空間在高度上進行了進一步擴展。
2)優(yōu)勢:全局視野、4D時空,感知更穩(wěn)定,預(yù)測更可靠 整體來講,基于Transformer的BEV感知技術(shù),對過往感知過程中的弊病給出了不同思路的解決方案,具有明顯優(yōu)勢。 1. 俯視圖少有遮擋,算法也可以對被遮擋區(qū)域進行預(yù)測 2. 異構(gòu)數(shù)據(jù)進行特征級融合,減少層層處理以及先驗規(guī)則帶來的信息丟失 3. 多模態(tài)數(shù)據(jù)特征在同一空間中融合,信息關(guān)聯(lián)性更強 4. 引入時序信息,感知結(jié)果更連續(xù)穩(wěn)定 5. 多模態(tài)數(shù)據(jù)統(tǒng)一在以自車為中心的同一坐標(biāo)系中,下游規(guī)控模塊提取更高效 6. 感知任務(wù)在BEV空間運行,迭代更快,可實現(xiàn)端到端優(yōu)化 3)應(yīng)用:處理多類長尾場景,加速去高精地圖 因此,BEV+Transformer方案能夠處理多種自動駕駛的corner case場景。
1. 感知復(fù)雜道路:在交通擁堵、路口復(fù)雜、路面不規(guī)則等情況下,BEV+Transformer以連續(xù)的俯視視角生成更全面的感知情況,以做出更可靠的路徑規(guī)劃;甚至在路面狹窄、有遮擋的情況下,俯視視角、跨模態(tài)融合、注意力機制下的算法,這些都能夠使車輛更好地識別周邊環(huán)境。
2. 應(yīng)對惡劣天氣:在雨雪霧霾等惡劣天氣條件下,攝像頭和激光雷達的感知效果都會受到影響,BEV+Transformer方案相比能夠減少損耗,避免各傳感器“各自為戰(zhàn)”。
3. 應(yīng)對動態(tài)交通:高階智能駕駛不僅需要在常規(guī)交通中平穩(wěn)運行,還需要對并車、合流等復(fù)雜任務(wù)作出反應(yīng),另外還需要應(yīng)對交通事故、路段封閉等突發(fā)情況。BEV+Transformer能夠?qū)崟r輸出交通狀況,并對路面行人、車輛作出預(yù)測,便于智駕系統(tǒng)做出更加合適的應(yīng)急策略。 更重要的是,BEV+Transformer的方案將靜態(tài)道路信息與動態(tài)道路參與方統(tǒng)一到了同一個坐標(biāo)系下,通過實時感知與轉(zhuǎn)換,在行駛中即可實時生成“活地圖”,推動自動駕駛中“感知-決策-規(guī)劃”的任務(wù)進行。 這也就意味著高精地圖不再成為強需求。 對于車企來講,使用高精地圖一直面臨著“資質(zhì)門檻高、采購成本高、維護成本高”的“三高”難題,如果能夠?qū)EV+Transformer上車使用,擺脫高精地圖將指日可待,在當(dāng)下“以價換量”的市場競爭中,又能向前一大步。
審核編輯:黃飛
?
評論
查看更多