0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

BEV空間內(nèi)進(jìn)行特征級融合具有哪些優(yōu)勢

智能汽車電子與軟件 ? 來源:九章智駕 ? 作者:許良 ? 2022-11-03 17:49 ? 次閱讀

BEV空間內(nèi)進(jìn)行特征級融合具有如下優(yōu)勢:

1.跨攝攝像頭融合和多模融合更易實(shí)現(xiàn)

2.時序融合更易實(shí)現(xiàn)

3.可“腦補(bǔ)”出遮擋區(qū)域的目標(biāo)

4.更方便端到端做優(yōu)化

在高等級智能駕駛領(lǐng)域,除了特斯拉和mobileye走的是純視覺技術(shù)路線外,其他大多數(shù)玩家走的還是多傳感器融合的技術(shù)路線。

多傳感器融合方案,一方面能夠充分利用不同工作原理的傳感器,提升對不同場景下的整體感知精度,另一方面,也可以在某種傳感器出現(xiàn)失效時,其他傳感器可以作為冗余備份。

目前多傳感器融合方案,主要有后融合(目標(biāo)級融合)、前融合(數(shù)據(jù)級融合)和中融合(特征級融合)三種。

多傳感器融合方案

傳感器后融合(目標(biāo)級融合)

所謂后融合,是指各傳感器針對目標(biāo)物體單獨(dú)進(jìn)行深度學(xué)習(xí)模型推理,從而各自輸出帶有傳感器自身屬性的結(jié)果,并在決策層進(jìn)行融合,這也是當(dāng)前的主流方案。

其優(yōu)勢是不同的傳感器都獨(dú)立進(jìn)行目標(biāo)識別,解耦性好,且各傳感器可以互為冗余備份。

對于Tier 1而言,后融合方案便于做標(biāo)準(zhǔn)的模塊化開發(fā),把接口封裝好,提供給主機(jī)廠“即插即用”。

對于主機(jī)廠來說,后融合算法比較簡單,每種傳感器的識別結(jié)果輸入到融合模塊,融合模塊對各傳感器在不同場景下的識別結(jié)果,設(shè)置不同的置信度,最終根據(jù)融合策略進(jìn)行決策。

不過后融合也有缺點(diǎn),最大的問題就是,各自傳感器經(jīng)過目標(biāo)識別再進(jìn)行融合時,中間損失了很多有效信息,影響了感知精度,而且最終的融合算法,仍然是一種基于規(guī)則的方法,要根據(jù)先驗(yàn)知識來設(shè)定傳感器的置信度,局限性很明顯。

ec33f832-5b51-11ed-a3b6-dac502259ad0.png?

目標(biāo)級融合(后融合)原理示意圖

傳感器前融合(數(shù)據(jù)級融合)

所謂前融合,是指把各傳感器的數(shù)據(jù)采集后,經(jīng)過數(shù)據(jù)同步后,對這些原始數(shù)據(jù)進(jìn)行融合。

ec4128ea-5b51-11ed-a3b6-dac502259ad0.png

多傳感器數(shù)據(jù)級融合(前融合)原理示意圖

其優(yōu)勢是可以從整體上來處理信息,讓數(shù)據(jù)更早做融合,從而讓數(shù)據(jù)更有關(guān)聯(lián)性,比如把激光雷達(dá)的點(diǎn)云數(shù)據(jù)和攝像頭的像素級數(shù)據(jù)進(jìn)行融合,數(shù)據(jù)的損失也比較少。

不過其挑戰(zhàn)也很明顯,因?yàn)橐曈X數(shù)據(jù)和激光雷達(dá)點(diǎn)云數(shù)據(jù)是異構(gòu)數(shù)據(jù),其坐標(biāo)系不同,視覺數(shù)據(jù)是2D圖像空間,而激光雷達(dá)點(diǎn)云是3D空間,在進(jìn)行融合時,只能在圖像空間里把點(diǎn)云放進(jìn)去,給圖像提供深度信息,或者在點(diǎn)云坐標(biāo)系里,通過給點(diǎn)云染色或做特征渲染,而讓點(diǎn)云具有更豐富的語義信息。

ec4f6662-5b51-11ed-a3b6-dac502259ad0.gif

相機(jī)和激光雷達(dá)前融合效果示意圖(來自馭勢公眾號)

坐標(biāo)系的不同,也導(dǎo)致前融合的效果并不理想,一方面,前融合需要處理的數(shù)據(jù)量較大,對算力要求較高;另一方面,前融合要想達(dá)到好的效果,對融合策略要求較高,過程非常復(fù)雜,所以目前業(yè)內(nèi)應(yīng)用并不多。

為了解決異構(gòu)傳感器坐標(biāo)系不一致的問題,開發(fā)人員常常會把視覺2D圖像轉(zhuǎn)到3D坐標(biāo)系下,這樣就和其他傳感器數(shù)據(jù),如激光雷達(dá)點(diǎn)云數(shù)據(jù),所在的空間保持一致,從而可以在相同坐標(biāo)系下進(jìn)行融合。

將視覺信息轉(zhuǎn)換到3D坐標(biāo)系,就是今天介紹的重點(diǎn)——BEV。

BEV是鳥瞰圖(Bird’s Eye View)的簡稱,也被稱為上帝視角,是??一種用于描述感知世界的視角或坐標(biāo)系(3D),BEV也用于代指在計算機(jī)視覺領(lǐng)域內(nèi)的一種??端到端的、由神經(jīng)網(wǎng)絡(luò)將??視覺信息,從圖像空間轉(zhuǎn)換到BEV空間的技術(shù)。

雖然理論上BEV可以應(yīng)用在前、中、后融合過程中,不過因?yàn)榍叭诤蠈?shí)現(xiàn)難度大,一般很少將BEV應(yīng)用在前融合,偶爾也會用在后融合上,更多會應(yīng)用在介于數(shù)據(jù)級融合和目標(biāo)級融合之間的特征級融合,即中融合上。

傳感器中融合(特征級融合) 所謂中融合,就是先將各個傳感器通過神經(jīng)網(wǎng)絡(luò)模型提取中間層特征(即有效特征),再對多種傳感器的有效主要特征進(jìn)行融合,從而更有可能得到最佳推理。

對有效特征在BEV空間進(jìn)行融合,一來數(shù)據(jù)損失少,二來算力消耗也較少(相對于前融合),所以一般在BEV空間進(jìn)行中融合比較多。

為了簡化描述,如無特殊說明,下文提及的BEV感知,均指“BEV空間內(nèi)的中融合(特征級融合)。

那么,視角轉(zhuǎn)換到BEV空間,究竟有什么意義呢? 想象一下停車就好了。停車挺有難度的,尤其對于新手司機(jī)來說。駕駛員不僅要注意前方,還要兼顧左右兩個后視鏡和車內(nèi)倒車鏡,根據(jù)經(jīng)驗(yàn)去預(yù)估自車相對于周邊障礙物的位置和距離。

而有了車載360環(huán)視功能,駕駛員能從上帝視角一目了然地看到自車周邊物體的位置和距離,停車也就變得簡單了很多。

具體到智能駕駛系統(tǒng),因?yàn)楦兄?、預(yù)測、決策和規(guī)劃等模塊,都是在3D空間內(nèi)進(jìn)行的,而攝像頭看到的圖像信息,只是真實(shí)物理世界在透視視圖(Perspective View)下的投影,從圖像得到的信息,需要經(jīng)過復(fù)雜的后處理才能使用,信息損失也很多。而將視覺信息轉(zhuǎn)換到BEV空間,則可以很方便地連接感知與下游的??規(guī)劃控制模塊。

此外,BEV空間內(nèi)的感知任務(wù),在精度上也有優(yōu)勢。做2D感知時,面對遠(yuǎn)處的物體,可能幾個像素的誤差便可能導(dǎo)致幾十米的真實(shí)誤差,而在BEV空間內(nèi)訓(xùn)練模型時,對遠(yuǎn)處誤差的損失(loss)更加明顯,所以感知結(jié)果也會更準(zhǔn)確一些。

綜上,這也就是BEV如此重要的原因。

BEV的發(fā)展歷史

在了解BEV的技術(shù)細(xì)節(jié)之前,我們先來了解下BEV的發(fā)展歷史。

傳統(tǒng)方法的BEV空間轉(zhuǎn)換方法,一般是先在圖像空間對圖像進(jìn)行特征提取,生成分割結(jié)果,然后通過IPM(Inverse Perspective Mapping,逆透視變換)函數(shù)轉(zhuǎn)換到BEV空間。

什么是IPM?

在前視攝像頭拍攝的圖像中,由于透視效應(yīng)現(xiàn)象(想象從一個點(diǎn)去看世界,透視效應(yīng)會呈現(xiàn)出近大遠(yuǎn)小的觀察結(jié)果)的存在,本來平行的事物(比如車道線),在圖像中卻不平行。IPM就是利用相機(jī)成像過程中的坐標(biāo)系轉(zhuǎn)化關(guān)系,對其原理進(jìn)行抽象和簡化,得到真實(shí)世界坐標(biāo)系和圖像坐標(biāo)系之間坐標(biāo)的對應(yīng)關(guān)系,并進(jìn)行公式化描述,從而消除這種透視效應(yīng),所以叫做逆透視變換。

eca10f76-5b51-11ed-a3b6-dac502259ad0.png?

車道線的逆透視變換(IPM)

IPM是一種連接圖像空間和BEV空間的簡單直接的方法,只需要知道相機(jī)內(nèi)外參數(shù)就可以。相機(jī)內(nèi)參數(shù),指的是與相機(jī)自身特性相關(guān)的參數(shù),比如焦距、像素大小等,而相機(jī)外參數(shù)則是相機(jī)在真實(shí)世界坐標(biāo)系中的參數(shù),比如相機(jī)的安裝位置、旋轉(zhuǎn)方向等。

不過,IPM依賴一些預(yù)先的假設(shè),比如地面平直性假設(shè)(地面要是平的),且相機(jī)和地面之間沒有相對運(yùn)動(車輛的俯仰角不變)。

很多時候這個假設(shè)太嚴(yán)苛了,很難滿足,比如在顛簸道路上,或者在車輛加速或減速產(chǎn)生俯仰時,系統(tǒng)對目標(biāo)物的感知結(jié)果波動非常大,會產(chǎn)生“忽近忽遠(yuǎn)”的跳變,平行的車道線,這時也會變成“內(nèi)八”或者“外八”。

于是就有了改進(jìn)方案,那就是將相機(jī)的實(shí)時位姿考慮進(jìn)來,加上俯仰角的修正補(bǔ)償后,再進(jìn)行空間轉(zhuǎn)換。改進(jìn)后雖然效果有所改善,但是實(shí)時位姿也很難準(zhǔn)確得到,所以效果并不理想。

這兩年,深度學(xué)習(xí)也開始被應(yīng)用于BEV空間轉(zhuǎn)換,且逐漸成為主流方案。 相比于依賴人為規(guī)則,使用神經(jīng)網(wǎng)絡(luò)從2D空間進(jìn)行BEV空間轉(zhuǎn)換,能夠取得更好的感知效果。

具體的流程是,先通過一個共享的主干網(wǎng)絡(luò)(Backbone)來提取每個相機(jī)的特征(feature),然后再通過Transformer等將多攝像頭數(shù)據(jù),完成從圖像空間到BEV空間的轉(zhuǎn)換。在BEV空間內(nèi),由于坐標(biāo)系相同,可以很方便地將圖像數(shù)據(jù)和其他傳感器數(shù)據(jù)(如Lidar、Radar等)進(jìn)行融合,還可以進(jìn)行時序融合形成4D空間,這也是當(dāng)下BEV技術(shù)的大趨勢。

ecb3d1b0-5b51-11ed-a3b6-dac502259ad0.png

毫末智行用于識別車道線的BEV時空融合感知網(wǎng)絡(luò)

BEV空間內(nèi)中融合的優(yōu)勢

相比于后融合和前融合,在BEV空間內(nèi)進(jìn)行中融合具有如下優(yōu)勢:

01 跨攝像頭融合和多模融合更易實(shí)現(xiàn)

傳統(tǒng)跨攝像頭融合或者多模融合時,因數(shù)據(jù)空間不同,需要用很多后處理規(guī)則去關(guān)聯(lián)不同傳感器的感知結(jié)果,操作非常復(fù)雜。在BEV空間內(nèi)做融合后,再做目標(biāo)檢測,算法實(shí)現(xiàn)更加簡單,BEV空間內(nèi)視覺感知到的物體大小和朝向也都能直接得到表達(dá)。

02 時序融合更易實(shí)現(xiàn)

在BEV空間時,可以很容易地融合時序信息,形成4D空間。 在4D空間內(nèi),感知網(wǎng)絡(luò)可以更好地實(shí)現(xiàn)一些感知任務(wù),如測速等,甚至可以直接輸出運(yùn)動預(yù)測(motion prediction)給到下游的決策和規(guī)控。

03 可“腦補(bǔ)”出被遮擋區(qū)域的目標(biāo)

因?yàn)橐曈X的透視效應(yīng),2D圖像很容易有遮擋,因而,傳統(tǒng)的2D感知任務(wù)只能感知看得見的目標(biāo),對于遮擋完全無能為力,而在BEV空間內(nèi),可以基于先驗(yàn)知識,對被遮擋的區(qū)域進(jìn)行預(yù)測,從而“腦補(bǔ)”出被遮擋區(qū)域可能存在物體。雖然“腦補(bǔ)”出的物體,有一定“想象”的成分,但這對于下游的規(guī)控模塊仍有很多好處。

04 更方便端到端做優(yōu)化

傳統(tǒng)做感知任務(wù)時,依次做目標(biāo)識別、追蹤和運(yùn)動預(yù)測,更像是個“串行系統(tǒng)”,上游的誤差會傳遞到下游從而造成誤差累積,而在BEV空間內(nèi),感知和運(yùn)動預(yù)測在統(tǒng)一空間內(nèi)完成,因而可以通過神經(jīng)網(wǎng)絡(luò)直接做端到端優(yōu)化,“并行”出結(jié)果,這樣既可以避免誤差累積,也大大減少了人工邏輯的作用,讓感知網(wǎng)絡(luò)可以通過數(shù)據(jù)驅(qū)動的方式來自學(xué)習(xí),從而更好地實(shí)現(xiàn)功能迭代。

隨著特斯拉和毫末智行等紛紛使用BEV空間轉(zhuǎn)換,近期BEV也引起了行業(yè)內(nèi)的高度關(guān)注,不過當(dāng)前BEV的應(yīng)用實(shí)踐并不太多,業(yè)內(nèi)專家仍有很多疑問,BEV感知的模型架構(gòu)是什么?如何在BEV空間內(nèi)做目標(biāo)檢測和模型訓(xùn)練?BEV語義感知地圖是否可以代替高精地圖?當(dāng)前BEV仍有什么挑戰(zhàn)?BEV的技術(shù)壁壘是什么?為什么有的公司可以這么做,而有的公司則不行?

帶著這些問題,九章智駕采訪了毫末智行的技術(shù)總監(jiān)潘興、紐勱科技的視覺專家符張杰、鑒智機(jī)器人研究總監(jiān)朱政以及一些其他行業(yè)專家。

BEV感知需要什么樣的架構(gòu)

雖然每個公司使用的BEV感知架構(gòu)可能不完全相同,但是大致架構(gòu)類似。

第一步,先將攝像頭數(shù)據(jù)輸入到共享的骨干網(wǎng)絡(luò)(Backbone),提取每個攝像頭的數(shù)據(jù)特征(feature)。

第二步,把所有的攝像頭數(shù)據(jù)(跨攝)進(jìn)行融合,并轉(zhuǎn)換到BEV空間。

第三步,在BEV空間內(nèi),進(jìn)行跨模態(tài)融合,將像素級的視覺數(shù)據(jù)和激光雷達(dá)點(diǎn)云進(jìn)行融合。

第四步,進(jìn)行時序融合,形成4D時空維度的感知信息。

最后一步,就是多任務(wù)輸出,可以是靜態(tài)語義地圖、動態(tài)檢測和運(yùn)動預(yù)測等,給到下游規(guī)控模塊使用。

ecda06c8-5b51-11ed-a3b6-dac502259ad0.png

BEV感知架構(gòu)

引用自地平線架構(gòu)師劉景初主題為“上帝視角與想象力—自動駕駛感知的新范式”的線上分享 值得一提的是,Transformer在CV領(lǐng)域的應(yīng)用自2020年底就開始獲得關(guān)注,隨著2021年特斯拉在AI Day上公開其在FSD中使用了Transformer算法后,國內(nèi)多家公司也紛紛開始將Transformer應(yīng)用在感知系統(tǒng)中,如毫末智行、地平線、紐勱等。

相比于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(如CNN)的局部感受野,Transformer的注意力機(jī)制,能夠帶來更好的全局感受野,讓其在進(jìn)行跨攝像頭、跨傳感器以及時序融合時,可以更好地在空間時序維度上建模,從而可以提升感知準(zhǔn)確率。

下圖中,南京大學(xué)、上海人工智能實(shí)驗(yàn)室和香港大學(xué)提出的BEVFormer算法架構(gòu)就使用了Transformer,并在nuScenes測試集上的NDS指標(biāo)上取得了新的當(dāng)前最優(yōu)水平(SOTA)56.9%,提升了9個點(diǎn)。

ed0f34a6-5b51-11ed-a3b6-dac502259ad0.png?

BEVFormer算法架構(gòu)

BEVFormer經(jīng)過骨干網(wǎng)絡(luò)提取特征后,經(jīng)過了6個編碼層(encoder),每一個都采用了典型的transformer結(jié)構(gòu)。

具體實(shí)現(xiàn)上,BEVFormer通過預(yù)先設(shè)置參數(shù)的網(wǎng)格劃分(grid-shaped)的BEV 查詢機(jī)制(BEV queries)來利用時空信息。為了聚合空間信息,BEVFormer設(shè)計了空間交叉注意力機(jī)制(spatial cross-attention,即BEV 查詢機(jī)制從多相機(jī)特征中通過注意力機(jī)制提取所需的空間特征),讓BEV查詢機(jī)制能從其感興趣的多相機(jī)視角中提取特征,為了聚合時序信息,BEVFormer提出了時序自注意力機(jī)制(temporal self-attention,即每一時刻生成的BEV特征都從上一時刻的BEV特征獲取所需的時序信息)來融合歷史信息。

BEVFormer在通過Transformer進(jìn)行BEV空間轉(zhuǎn)換時,是通過預(yù)先設(shè)置參數(shù)的網(wǎng)格劃分(grid-shaped)的BEV 查詢機(jī)制和空間交叉注意力機(jī)制。

預(yù)先設(shè)置了一個大小為H x W x C的空間,作為BEVFormer的查詢空間,其中H和W是BEV平面的空間尺寸,C為與該平面垂直的高度坐標(biāo),其中網(wǎng)格間隔值s代表了該空間的顆粒度,自車坐標(biāo)作為原點(diǎn),BEV查詢機(jī)制負(fù)責(zé)不斷查詢,找到這個空間內(nèi)每個坐標(biāo)點(diǎn)(x , y)的柱狀3D參考點(diǎn),最終完成全部BEV空間轉(zhuǎn)換。

ed8dd9f0-5b51-11ed-a3b6-dac502259ad0.png

BEVFormer的BEV查詢機(jī)制

BEVFusion在進(jìn)行BEV轉(zhuǎn)換時,雖沒使用Transformer,不過也經(jīng)歷了編碼(encoder)和解碼(decoder)兩個過程,在解碼過程中,把圖像信息轉(zhuǎn)化成BEV的3D空間的特征點(diǎn)云,每個像素都有一個預(yù)估深度D,N個輸入相機(jī)會生成大小為 N x H x W x D 的相機(jī)特征點(diǎn)云,其中(H,W) 是相機(jī)特征圖的大小,D為深度信息。

而轉(zhuǎn)換成的BEV空間的特征點(diǎn)云,以自車作為坐標(biāo)系原點(diǎn),沿x軸和y軸展開,以局部網(wǎng)格采樣的方式,如網(wǎng)格間隔(grid)為r,一般通過池化(pooling)操作來聚合每個 r × r BEV空間網(wǎng)格內(nèi)的特征,并沿 z 軸(高度方向)展平特征,于是完成了從2D到BEV空間的轉(zhuǎn)換。

edb57564-5b51-11ed-a3b6-dac502259ad0.png?

BEVFusion相機(jī)到BEV空間轉(zhuǎn)換機(jī)制

此外,紐勱提出的對多相機(jī)配置的BEV語義分割任務(wù)的BEVSegFormer架構(gòu),也用到了Transformer,并在nuScenes驗(yàn)證集的語義分割任務(wù)上取得了當(dāng)前最優(yōu)水平(SOTA)。

edd8ac50-5b51-11ed-a3b6-dac502259ad0.png?

BEVSegFormer的網(wǎng)絡(luò)

幾位行業(yè)內(nèi)專家認(rèn)為,由于Transfromer先天具有更好的全局感受野,因而可以好地提取全局特征,既可以用來作為骨干網(wǎng)絡(luò),也可以在BEV轉(zhuǎn)換中使用。BEV+Transformer聯(lián)合使用,優(yōu)勢會更加明顯,有可能會成為行業(yè)發(fā)展趨勢。

BEV感知任務(wù)實(shí)踐

如何在BEV空間內(nèi)做3D目標(biāo)檢測?

在自動駕駛感知中,目標(biāo)檢測是非常重要的任務(wù)。 所有下游跟蹤、預(yù)測、規(guī)劃、控制等任務(wù)都需要目標(biāo)檢測“打好基礎(chǔ)”,而下游任務(wù)都是在3D空間內(nèi)完成的。因此,強(qiáng)大的 3D 檢測能力是自動駕駛安全的保證。

在實(shí)際應(yīng)用中,純視覺方案面臨從 2D 推測 3D“少一個維度” 的挑戰(zhàn)。一般傳統(tǒng)方案做3D檢測時(如FCOS3D),先做2D的目標(biāo)檢測,再通過以激光雷達(dá)測的真值訓(xùn)練的神經(jīng)網(wǎng)絡(luò)去對2D目標(biāo)預(yù)測深度,以此來得到3D目標(biāo)的檢測。

在BEV空間內(nèi)可以直接進(jìn)行3D目標(biāo)檢測,省去預(yù)測深度的過程,實(shí)現(xiàn)起來更簡單。如把2D檢測算法DETR稍加改造用于做3D目標(biāo)檢測的DETER3D,算法復(fù)雜度大大降低,也在NuScenes數(shù)據(jù)集上取得了當(dāng)前最優(yōu)水平(SOTA)的檢測效果。

ee15b19a-5b51-11ed-a3b6-dac502259ad0.png?

DETR3D算法架構(gòu)(其損失函數(shù)的借鑒了DETR的設(shè)計)

注:DETR3D由麻省理工學(xué)院(MIT)和清華大學(xué)、理想汽車和豐田研究所團(tuán)隊(duì)共同合作提出的,目前代碼已經(jīng)開源。

DETR3D論文中的感知結(jié)果顯示,由于在BEV空間里的跨攝像頭的融合效果更好,DETR3D對于相機(jī)附近超大的、被截斷目標(biāo)物(如大貨車)的檢出率有了明顯的提升(在關(guān)鍵檢出指標(biāo)NDS上,F(xiàn)COS3D:0.317,DETR3D:0.356)。

此外,BEV空間內(nèi)的目標(biāo)檢測更容易做到“不重不漏”。

鑒智機(jī)器人朱政介紹道:“目標(biāo)檢測最重要是做到‘不重不漏’。在2D圖像空間內(nèi),由于透視效應(yīng),遮擋嚴(yán)重,很容易重合和漏檢;在BEV空間內(nèi),做到不重合很容易,只需要按照物理世界的規(guī)則,把重合的感知目標(biāo)去掉即可;要做到不漏檢,如果單幀圖像下被完全遮擋,那的確沒辦法——不過,加上時序信息,即使在某幾幀下被遮擋,只要不是一直被遮擋住,就可以在BEV空間‘腦補(bǔ)’出來。就像人開車一樣,前幾秒看到旁邊車道有輛車,??中間有幾秒被大車擋住了,但我們知道再過幾秒它還會出現(xiàn)。”

傳統(tǒng)2D感知任務(wù)和BEV空間如何結(jié)合?

筆者有個疑問:在BEV空間內(nèi)檢測有這么多好處,那是不是所有的感知任務(wù)都可以在BEV空間內(nèi)完成,傳統(tǒng)的那些2D檢測和語義分割等感知任務(wù)還有“用武之地”嗎? 目前看下來,2D感知任務(wù)并不會完全被“棄用”,還是會與BEV空間內(nèi)的檢測任務(wù)結(jié)合進(jìn)行使用。

鑒智機(jī)器人科學(xué)家朱政認(rèn)為,一般的檢測任務(wù),如動態(tài)車輛、行人和靜態(tài)車道線等,當(dāng)然更適合在BEV空間內(nèi)做,但也有些是在BEV空間內(nèi)做不了或者更合適在2D空間內(nèi)做的感知任務(wù),比如紅綠燈檢測。

紐勱也認(rèn)為,傳統(tǒng)的2D檢測和圖像分割任務(wù),其實(shí)是可以作為輔助來提升BEV感知任務(wù)的性能,可以根據(jù)下游的不同需求,來做不同的安排。

那么,2D感知的結(jié)果怎么對應(yīng)到 BEV空間呢? 對于這個問題,地平線架構(gòu)師劉景初在線上分享中提到,其實(shí)關(guān)鍵是要找到2D檢測結(jié)果在BEV空間的映射關(guān)系,且這些映射關(guān)系要在不同的場景下表現(xiàn)得足夠魯棒,這是比較難的,需要很多后處理規(guī)則。

如何處理“腦補(bǔ)”出來的預(yù)測結(jié)果?

在BEV空間做目標(biāo)檢測時,對于被遮擋區(qū)域,感知模型會根據(jù)先驗(yàn)知識,“腦補(bǔ)”出被遮擋部分的目標(biāo)。這種“腦補(bǔ)”的功能,無疑是非常令人驚喜的,地平線的架構(gòu)師劉景柱在一次線上分享中,認(rèn)為這種想象力是“一種感知范式的轉(zhuǎn)變”。

那么對于“腦補(bǔ)”出的感知結(jié)果,到底如何使用才能最大化發(fā)揮其作用呢?

業(yè)內(nèi)專家普遍認(rèn)為,對于神經(jīng)網(wǎng)絡(luò)所“想象”出來的感知結(jié)果,應(yīng)該和實(shí)際看到的感知結(jié)果做好區(qū)分,比如可以讓感知結(jié)果輸出時帶一個“置信度”的標(biāo)簽,告訴下游這個結(jié)果到底是實(shí)際看到,還是“腦補(bǔ)”出來的。

對于下游而言,對不同置信度的結(jié)果的“可信賴度”是不同的,使用的時候也會做好甄別,比如對低置信度的感知結(jié)果使用時會做一些限制。

劉景初在線上分享時提到,對于低置信度的感知結(jié)果,只能用一些比較粗糙的信息,比如車道線是不能用的,但是如果前面有個路口,能看到人行橫道,那么大概率兩邊會有延伸出去的道路,這個感知結(jié)果就是可以用的。

毫末智行的潘興也認(rèn)為,復(fù)雜拓?fù)浣Y(jié)構(gòu)道路環(huán)境下,“腦補(bǔ)”出的車道線準(zhǔn)確度很一般,“經(jīng)常出錯,比如會在小路口時“腦補(bǔ)”將車道線延長,或者將待轉(zhuǎn)區(qū)的線“腦補(bǔ)”成了車道線”,對于這類識別結(jié)果,毫末的選擇是不使用,甚至直接選擇不輸出這些“腦補(bǔ)”的車道線感知結(jié)果。

鑒智機(jī)器人的朱政認(rèn)為,“腦補(bǔ)”出的結(jié)果,可以作為隱變量或者放在隱空間存儲起來,交給模型自行判斷使用,而不去加太多人為規(guī)則去約束。

時序融合有什么用處? 在BEV空間內(nèi),進(jìn)行時序融合后形成的4D空間,除了上述提到的可以實(shí)現(xiàn)對暫時被遮擋的物體有更好的跟蹤效果外,還可以更方便地對運(yùn)動物體進(jìn)行測速和運(yùn)動預(yù)測。

測速

除了像毫米波雷達(dá)這種自帶測速功能的傳感器外,其他傳感器基于某一時刻的信息去做測速是很困難的,而融入了時序信息后,視覺就可以實(shí)現(xiàn)穩(wěn)定地測速。

在2D圖像空間內(nèi),一般采用光流法(Optical Flow)進(jìn)行測速。

光流法,是在視頻流中,利用上一幀代表同一目標(biāo)物的像素點(diǎn)到下一幀的移動量,從而計算出目標(biāo)物的運(yùn)動速度的方法。

根據(jù)進(jìn)行光流估計時圖像的選取點(diǎn)是稀疏還是稠密,可以將光流估計分為稀疏光流(Sparse Optical Flow)和稠密光流(Dense Optical Flow),如下左圖的稀疏光流為選取了明顯的特征點(diǎn)進(jìn)行光流估計,右圖為連續(xù)幀稠密光流示意圖。

稠密光流描述圖像中每個像素向下一幀運(yùn)動的方向和速度,為了便于識別,用不同的顏色和亮度表示光流的大小和方向,如黃色代表向下運(yùn)動,紫色代表向上運(yùn)動,速度越快顏色越深。

ee393d7c-5b51-11ed-a3b6-dac502259ad0.png ?

稀疏光流(左圖)和稠密光流(右圖 )

在BEV空間內(nèi),因?yàn)槟軌蛑苯荧@取到目標(biāo)物體每幀下的具體位置信息,再加上前后幀的時間戳信息,就可以很容易求出目標(biāo)物體的速度,“可以把根據(jù)位置信息得到的速度,再融合毫米波雷達(dá)提供的速度,這樣結(jié)果會更準(zhǔn)確,”一位行業(yè)內(nèi)專家介紹道。

毫末智行潘興認(rèn)為,也可以在模型訓(xùn)練時,把速度信息直接標(biāo)注上去,讓車端模型根據(jù)前后幀的信息自行推理出來,“有了4D信息后,速度的真值也比較容易獲取,訓(xùn)練起來更容易一些”,潘興說道。

運(yùn)動預(yù)測

自動駕駛系統(tǒng)需要與道路上的交通參與者進(jìn)行互動,并預(yù)測他們未來的行為,以便能正確做好自車的規(guī)劃控制。

云端有了4D時空信息,就像掌握了預(yù)知未來的“超能力”一樣,可以準(zhǔn)確地知道接下來每個目標(biāo)物的運(yùn)動軌跡,而用這些信息去訓(xùn)練神經(jīng)網(wǎng)絡(luò),可以讓模型根據(jù)過往的歷史信息去預(yù)測目標(biāo)物接下來的運(yùn)動軌跡。

傳統(tǒng)算法會先做感知,再做運(yùn)動預(yù)測,中間會人為增加很多規(guī)則來處理感知結(jié)果,這樣一方面會增加很多人工邏輯,增加了后續(xù)調(diào)優(yōu)的難度,另一方面處理時也損失了很多有效信息。而神經(jīng)網(wǎng)絡(luò)則直接從感知傳遞到運(yùn)動預(yù)測,全部在BEV空間內(nèi)完成,減少信息損失的同時,還可以端到端做優(yōu)化,減少了人工邏輯,大大提升數(shù)據(jù)迭代的效率。

此前也已經(jīng)有一些端到端感知聯(lián)合預(yù)測的實(shí)踐。

英國的自動駕駛創(chuàng)業(yè)公司W(wǎng)ayve和劍橋大學(xué)合作提出的FIERY網(wǎng)絡(luò),也是基于純視覺的方法,通過端到端的方式,通過攝像頭輸入,直接在BEV空間預(yù)測每個目標(biāo)的運(yùn)動軌跡(motion trajectory),并給出了具體軌跡的概率。

下圖是FIERY BEV網(wǎng)絡(luò)運(yùn)動預(yù)測的示意圖,上面兩行為相機(jī)輸入,最下面一行為BEV空間下的目標(biāo)物的預(yù)測軌跡。

ef7bb0d4-5b51-11ed-a3b6-dac502259ad0.gif?

FIERYBEV網(wǎng)絡(luò)運(yùn)動預(yù)測的示意圖

下圖為鑒智機(jī)器人和清華大學(xué)團(tuán)隊(duì)合作提出的BEVerse,以周視攝像頭的視頻流作為輸入,就是在BEV空間內(nèi)完成的多任務(wù)模型感知任務(wù),除了動態(tài)感知和局部語義地圖外,還進(jìn)行了運(yùn)動預(yù)測。

efb9b58c-5b51-11ed-a3b6-dac502259ad0.png?

BEVerse的多任務(wù)模型架構(gòu)

在網(wǎng)格劃分時,如何權(quán)衡大小、遠(yuǎn)近目標(biāo)檢測的矛盾?

本質(zhì)上,從2D圖像到BEV空間的轉(zhuǎn)化就是尋找一種映射關(guān)系,將2D圖像的每個像素投射到3D空間,使圖像的稠密語義信息在BEV空間得以完整保留。

一般在BEV轉(zhuǎn)化時,都會使用網(wǎng)格劃分機(jī)制。

具體轉(zhuǎn)換過程,上文已經(jīng)詳細(xì)描述了,雖然轉(zhuǎn)換過程的原理不難,但轉(zhuǎn)化過程(如池化時)卻非常消耗算力,主要是因?yàn)橄鄼C(jī)的特征點(diǎn)云密度非常大,比如200萬像素的相機(jī),每幀會生成200萬個點(diǎn)特征點(diǎn)云,比激光雷達(dá)的點(diǎn)云密度要大得多。

所以,為了提高轉(zhuǎn)換效率和節(jié)省算力,一般會限制網(wǎng)格的數(shù)量,這就需要預(yù)先設(shè)置好網(wǎng)格參數(shù),主要是網(wǎng)格間隔(grid)和x/y軸的范圍(range)。

這就帶來了一個挑戰(zhàn),那就是如何在網(wǎng)格間隔參數(shù)設(shè)置時兼顧近處和遠(yuǎn)處、大目標(biāo)和小目標(biāo)。

網(wǎng)格間隔參數(shù)設(shè)置得大,BEV空間內(nèi)的特征顆粒度就大,雖然計算運(yùn)行速度比較快,但細(xì)節(jié)不是很豐富,網(wǎng)格參數(shù)小的話,顆粒度小,雖然細(xì)節(jié)豐富,但計算量大。

因?yàn)檐嚩怂懔Φ南拗?,要想感知距離足夠遠(yuǎn),網(wǎng)格就不能設(shè)置得特別小,而網(wǎng)格大的話,就可能損失很多細(xì)節(jié),小目標(biāo)就可能會遺漏,這就需要采取折中的方案,也需要對網(wǎng)絡(luò)做一些精細(xì)化的設(shè)計,使用一些人工規(guī)則或者加一些訓(xùn)練技巧。

紐勱的符張杰介紹:“可以對遠(yuǎn)處目標(biāo)或者小目標(biāo)加以更大的損失權(quán)重,這樣網(wǎng)絡(luò)就會更加關(guān)注遠(yuǎn)處目標(biāo)或小目標(biāo),也可以利用多尺度的特征來解決這個問題。” 在BEV空間的多頭感知任務(wù)中,不同的任務(wù)對于網(wǎng)格采樣顆粒度和范圍的需求不同,可以根據(jù)具體的任務(wù)來設(shè)置網(wǎng)格和范圍參數(shù),這個思想在紐勱的BEVSegFormer和鑒智機(jī)器人和清華大學(xué)團(tuán)隊(duì)共同提出的BEVerse網(wǎng)絡(luò)架構(gòu)中都有體現(xiàn)。

在BEVerse中的多頭任務(wù)模型中,在語義地圖感知任務(wù)中,由于車道線一般比較細(xì),需把采樣網(wǎng)格設(shè)置和x/y軸范圍設(shè)置得比較?。▁軸范圍為[-30m,30m],y軸為[-15m,15m],間隔為0.15m),而在3D目標(biāo)檢測任務(wù)中,網(wǎng)格和范圍可以設(shè)置地稍大一些(x軸和y軸范圍均為[-51.2m,51.2m],間隔為0.8m)。

鑒智機(jī)器人的朱政則提到,可以根據(jù)不同場景的需求,對不同的范圍(x/y軸)進(jìn)行采樣,他說道:“要考慮功能對于感知范圍的需求,比如某些功能只在高速公路上開啟,那么對遠(yuǎn)處的目標(biāo)就更關(guān)注一些;如果只在城區(qū)開啟時,因?yàn)檐囁俚?,關(guān)注的范圍就不需要那么遠(yuǎn),這樣可以節(jié)省部分算力?!?br />
BEV空間內(nèi)的模型訓(xùn)練和優(yōu)化

既然在BEV空間內(nèi)做目標(biāo)檢測有這么多好處,那么如何訓(xùn)練BEV空間內(nèi)的模型呢?

如何在BEV空間訓(xùn)練算法模型?

車端BEV網(wǎng)絡(luò)的訓(xùn)練方式,還是采用傳統(tǒng)的有監(jiān)督學(xué)習(xí),不過區(qū)別在于,和傳統(tǒng)2D感知任務(wù)在2D圖像空間內(nèi)完成標(biāo)注不同,其所需要的真值需要在BEV空間內(nèi)完成標(biāo)注。

據(jù)業(yè)內(nèi)專家反饋,BEV訓(xùn)練最大的挑戰(zhàn)是在訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需要的真值(Ground Truth)的生成上。

訓(xùn)練所需的真值數(shù)據(jù),是從車端的影子模式下回傳的視頻流數(shù)據(jù)中,通過數(shù)據(jù)挖掘篩選出有價值的corner case數(shù)據(jù)。這部分?jǐn)?shù)據(jù)再進(jìn)入云端真值系統(tǒng)。

云端真值系統(tǒng)的作用,先是進(jìn)行三維重建,轉(zhuǎn)換到BEV空間,再做時序融合,形成4D空間數(shù)據(jù),再進(jìn)行自動標(biāo)注。

最后經(jīng)過人工質(zhì)檢(QA)后就形成了所需要的真值。

這樣4D空間的真值數(shù)據(jù)就可以用來訓(xùn)練車端的BEV感知模型了,訓(xùn)練完成后再繼續(xù)部署到車端,這樣不斷迭代來形成閉環(huán)。

具體流程可以參考下圖。

efe77cf6-5b51-11ed-a3b6-dac502259ad0.png?

BEV感知模型的訓(xùn)練鏈路

值得一提的是,上述的鏈路,尤其是車端影子模式+云端真值系統(tǒng)相結(jié)合的方式進(jìn)行模型迭代形成數(shù)據(jù)閉環(huán),更像是個“理想鏈路”。受限于實(shí)現(xiàn)技術(shù)難度和合規(guī)性,目前真正能夠?qū)崿F(xiàn)完整閉環(huán)的玩家,可以說是少之又少。 當(dāng)前更普遍的還是自建采集車隊(duì),用激光雷達(dá)+視覺的真值車去采集數(shù)據(jù),做聯(lián)合4D標(biāo)注進(jìn)行模型訓(xùn)練和迭代,并部署到車端。

如何提升BEV感知精度?

對于感知任務(wù)而言,精度是下游非常關(guān)心的。

由于視覺先天在測距方面存在不足,在BEV空間內(nèi)提升感知精度就成為了至關(guān)重要的,而這又和模型訓(xùn)練密不可分。

根據(jù)業(yè)內(nèi)專家的實(shí)踐經(jīng)驗(yàn),要想提高車端BEV感知模型的精度,一般從這三方面入手:

01 優(yōu)化云端三維重建和標(biāo)注模型

有監(jiān)督學(xué)習(xí)模式下,訓(xùn)練數(shù)據(jù)真值的精度決定了所訓(xùn)練模型的精度上限。對于BEV感知模型而言,云端真值生成系統(tǒng)就是“老師”,要想提升車端BEV感知模型這位“學(xué)生”的水平,提升負(fù)責(zé)三維重建和自動標(biāo)注的云端真值系統(tǒng)這位“老師”的水平是很重要的。

云端“老師”的三維重建功能,也是要經(jīng)過數(shù)據(jù)進(jìn)行訓(xùn)練的,為了讓訓(xùn)練“老師”的數(shù)據(jù)有足夠高的精度,一般會使用帶激光雷達(dá)的真值車采集得到用于訓(xùn)練數(shù)據(jù)的真值。地平線的做法是,為了獲取更好的重建效果,會使用真值車從不同的行駛方向采集同一個地點(diǎn)的數(shù)據(jù)。

除了提升用于訓(xùn)練“老師”的數(shù)據(jù)精度外,業(yè)內(nèi)公司在使用云端真值系統(tǒng)進(jìn)行離線感知任務(wù)時,會不惜算力做一些感知融合處理,如融合其他傳感器數(shù)據(jù)(激光雷達(dá)、毫米波雷達(dá)等)和時序信息,從而獲得完整的BEV空間的4D重建場景,以此作為真值來訓(xùn)練車端的網(wǎng)絡(luò)。

如果車端回傳的數(shù)據(jù)中有激光點(diǎn)云,數(shù)據(jù)精度會更高,效果也更好,如果沒有激光點(diǎn)云,??也可以依賴視覺進(jìn)行三維重建。據(jù)了解,基于視覺數(shù)據(jù)進(jìn)行云端三維重建的數(shù)據(jù)精度,也是可以滿足車端模型訓(xùn)練要求的。而且,由于當(dāng)前激光雷達(dá)上車較少且位置差異較大,目前業(yè)內(nèi)還是以視覺數(shù)據(jù)為主進(jìn)行三維重建。

在BEV空間下標(biāo)注時,為了提升標(biāo)注效率和標(biāo)注精度,也會先用云端真值系統(tǒng)自動標(biāo)注做預(yù)處理,完成后再人工進(jìn)行校驗(yàn),使真值的精度達(dá)到近似人類駕駛員能達(dá)到的精度。

02 增加訓(xùn)練數(shù)據(jù)量

影子模式下,車端會設(shè)置很多觸發(fā)器(trigger)的策略,采集有價值的數(shù)據(jù)回傳到云端。 在云端進(jìn)行數(shù)據(jù)挖掘后,找到有價值的corner case,然后重新去做真值生成,并通過數(shù)據(jù)驅(qū)動對車端網(wǎng)絡(luò)進(jìn)行訓(xùn)練迭代。

毫無疑問,訓(xùn)練數(shù)據(jù)所覆蓋的場景越多,車端模型的泛化能力越強(qiáng),感知精度也越高。相比于訓(xùn)練數(shù)據(jù)的數(shù)量,更重要的是數(shù)據(jù)的質(zhì)量,也就是數(shù)據(jù)需要覆蓋更多的極端場景,如不同的城市道路、不同的光照條件等。

除了車端影子模式獲取數(shù)據(jù)和自建采集車隊(duì)外,還有一種更高效地獲取數(shù)據(jù)的方法,那就是去年特斯拉AI Day提出來的通過仿真獲取數(shù)據(jù)。

f00b3376-5b51-11ed-a3b6-dac502259ad0.png?

特斯拉AI Day中的仿真介紹

03 優(yōu)化車端網(wǎng)絡(luò)架構(gòu)

除了上述兩點(diǎn)外,設(shè)計車端模型架構(gòu)也是非常重要的,架構(gòu)的好壞也直接決定了網(wǎng)絡(luò)的效率和功能水平。 不過受訪的多位專家也提到,對于BEV感知而言,并不需要一味地提升感知精度,最主要的評價指標(biāo)還是看能否滿足下游的需求。

其實(shí)感知精度的要求可以不用那么高,就像人開車一樣,對于近處的物體精度高一點(diǎn)就可以,對于遠(yuǎn)處的物體來說,過于追求精度反而是沒有必要的。

一位專注于做視覺的從業(yè)者說:“BEV空間內(nèi)的視覺算法精度在相當(dāng)一段范圍內(nèi)精度還是非常準(zhǔn)的,??基本可以控制在百分之幾的誤差。??人開車的時候也是如此,前面200米左右有個東西,??它的精確距離是200米還是220米,其實(shí)區(qū)別并不大?!?br />
BEV語義地圖有啥用?

在當(dāng)前高等級智能駕駛系統(tǒng)中,高精地圖所提供的語義信息,包括道路拓?fù)浣Y(jié)構(gòu)、車道線、限速要求等,能夠讓智能駕駛系統(tǒng)更好地理解現(xiàn)實(shí)世界的行車規(guī)則,也讓很多人認(rèn)為高精地圖是通往高等級智能駕駛的道路上不可或缺的一部分。

不過當(dāng)前大部分的高精地圖,都是使用采集車得到的以點(diǎn)云為主的數(shù)據(jù)進(jìn)行標(biāo)注得來,地圖的構(gòu)建和維護(hù)成本都很高。

而HDMapNet、BEVSegFormer、BEVerse等方法,可以基于多攝像頭信息,將BEV空間內(nèi)的車道線、路沿、斑馬線等靜態(tài)目標(biāo)物,在線生成局部語義地圖供下游規(guī)控任務(wù)使用,大大降低了語義地圖的構(gòu)建和維護(hù)成本,從而可能會給行業(yè)帶來地圖構(gòu)建和更新的新范式。

f032ecae-5b51-11ed-a3b6-dac502259ad0.png

HDMapNet實(shí)時構(gòu)建局部語義地圖的網(wǎng)絡(luò)模型

當(dāng)前高速NOA的主流方案,還是依賴高精地圖,不過當(dāng)功能拓展到城區(qū)NOA時,目前城市道路尚無高精地圖覆蓋。

諸多業(yè)內(nèi)專家認(rèn)為BEV在線構(gòu)建的語義地圖可以一定程度上代替高精地圖的作用,在城市NOA中發(fā)揮重要作用。

追勢科技發(fā)布的城市記憶領(lǐng)航功能,也是利用了“單車多次”的記憶模式,利用車端傳感器(激光雷達(dá)非必要)來實(shí)現(xiàn)特定通勤路線的語義地圖的構(gòu)建和更新,從而可以實(shí)現(xiàn)上下班這種特定路線的點(diǎn)對點(diǎn)領(lǐng)航輔助功能。

f0b80c86-5b51-11ed-a3b6-dac502259ad0.png?

追勢科技城市記憶領(lǐng)航功能算法架構(gòu)

雖然在理論上,方案可行性沒有大問題,不過在實(shí)際落地中也有不少挑戰(zhàn)。

最大的挑戰(zhàn)是精度,相比于高精地圖,BEV語義地圖的精度是略有不足的,而傳統(tǒng)智能駕駛算法架構(gòu)中,下游的規(guī)控任務(wù)都依賴高精地圖提供精確的drive line,當(dāng)面對上游給個“不那么精確”或者“大方向上正確”的語義地圖時,要保證通過率,下游的規(guī)控邏輯也需要相應(yīng)地調(diào)整。

不過,并不是說地圖就完全不需要了,地圖畢竟是超視距傳感器,對于提前預(yù)知下個路口的道路拓?fù)浣Y(jié)構(gòu)還是很有幫助的。追勢科技的城市記憶領(lǐng)航輔助中,也只有當(dāng)特定路線的語義地圖成熟、完整時,才可以啟用記憶領(lǐng)航功能。

只是可能以后地圖的精度不需要像現(xiàn)在的高精地圖一樣那么高了,有專家表示“可能未來導(dǎo)航地圖上加一些語義信息就可以滿足要求了”

BEV模型和數(shù)據(jù)的通用性

不同的量產(chǎn)車型中,攝像頭的數(shù)量、安裝位置和具體參數(shù)存在較大的差異,使用傳統(tǒng)后融合策略時,這些定制化的傳感器適配帶來了巨大的工作量。

那么,在BEV空間進(jìn)行中融合時,是否會有差異呢?

一方面,在適配不同車型時,是否和傳統(tǒng)的后融合有差異呢? 另一方面,從不同量產(chǎn)車型回傳回來的數(shù)據(jù),是否能夠用于持續(xù)迭代統(tǒng)一的BEV感知模型呢?

如何適配不同車型 ??

由于傳統(tǒng)后融合太依賴人工后處理規(guī)則,在傳感器適配時,有諸多的無比痛苦的定制化工作,可能安裝位置或者視角稍微調(diào)整一下,就需要花大量的時間適配。

與后融合方案相比,BEV感知模型由于少了很多人工規(guī)則,通用能力要出色得多,雖然也需要做一些適配,但是整體工作量還是要少地多。

“換一個新車型,相機(jī)安裝位置變了,這時候需要把相機(jī)重新標(biāo)定一下,再采集數(shù)據(jù)訓(xùn)練一下,”一位行業(yè)專家說道。

為了提升BEV模型的泛化能力,一般可以通過預(yù)先設(shè)置??結(jié)構(gòu)化參數(shù)來適配不同車型(比如安裝高度、安裝位置、角度等),這樣就可以在模型訓(xùn)練時排除相機(jī)內(nèi)外參的影響。

不過也有一些模型,如BEVerse等,嘗試把相機(jī)的內(nèi)外參作為信號輸入,直接給到模型進(jìn)行訓(xùn)練,讓神經(jīng)網(wǎng)絡(luò)自己去學(xué)著利用這些信息做適配,這樣適配會更加方便,不過這也對BEV網(wǎng)絡(luò)架構(gòu)的設(shè)計提出了更高的要求。

回傳數(shù)據(jù)的通用性

業(yè)內(nèi)專家普遍認(rèn)為,不同車型上的攝像頭雖然可能位置、數(shù)量不同,但回傳回來的數(shù)據(jù)(如圖像、視頻流)轉(zhuǎn)換到BEV空間后,都可以很方便地用于訓(xùn)練BEV模型。

只是考慮到位置差異,在使用車端攝像頭數(shù)據(jù)時,需要對多攝像頭的重合部分做一下處理。

其實(shí)環(huán)視攝像頭的視野重合部分并不多,前向多個不同F(xiàn)OV的攝像頭會有較多重合部分。

要處理這種重合部分,可以采用拼接技術(shù)。每一張圖像都有自己的特征點(diǎn),數(shù)據(jù)采集后,先根據(jù)圖像的特征點(diǎn),對特征點(diǎn)相似的圖像進(jìn)行特征匹配(圖像匹配),從而找到鄰接圖并將相鄰的圖像拼接在一起(圖像拼接),然后就對特征相同的不同分辨率的圖像進(jìn)行融合(圖像融合)。完成圖像融合后,只需要把相鄰幀圖進(jìn)行拼接成視頻(視頻融合),整個過程就完成了。

具體過程如下圖所示。

f0e9db80-5b51-11ed-a3b6-dac502259ad0.png

拼接流程

圖像匹配過程中很關(guān)鍵的環(huán)節(jié)是圖像特征點(diǎn)的獲取和匹配。這可以通過SIFT、SURF等方法來實(shí)現(xiàn),不過為了提升計算效率,業(yè)內(nèi)一般通過降采樣(類似于降低分辨率)的方式來進(jìn)行特征檢測。

在圖像融合時,一般可用泊松算法、直接平均算法和加權(quán)算法等方法,直接平均算法業(yè)內(nèi)用得更多一些。

除了上述的圖像拼接外,為了消除不同車型的差異,業(yè)內(nèi)還用到一種叫“虛擬相機(jī)”的方法來共享訓(xùn)練數(shù)據(jù),“就是將圖像投影到一個標(biāo)準(zhǔn)的視角上(訓(xùn)練時用的視角),投影后的相機(jī)就叫虛擬相機(jī),這樣就能保證回傳數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的視角相同了,”一位行業(yè)專家介紹道。

除了上述提到的視角問題外,一位行業(yè)專家也提到ISP( Image Signal Process, 圖像信號處理)的處理也可能會影響數(shù)據(jù)的通用性。不同攝像頭的ISP不同,對Raw data的處理方式也不同,雖然可以通過技術(shù)手段來解決(如通過圖像預(yù)處理統(tǒng)一到同一個色彩空間下),但也可能會影響到感知結(jié)果,“就像人帶著墨鏡看世界一樣,看一般物體可能不受影響,看紅綠燈就可能會受到一些影響”,這位專家解釋道。

BEV技術(shù)的局限性與挑戰(zhàn)

BEV解決不了視覺的“先天缺陷” ??在傳統(tǒng)的2D檢測時,檢測、分類和跟蹤任務(wù),都是依賴有監(jiān)督學(xué)習(xí)的訓(xùn)練,也就是說感知網(wǎng)絡(luò)只能識別出之前“見過”的物體,對于之前沒“見過”的物體(即訓(xùn)練數(shù)據(jù)集里沒有的),是識別不出來的,從而會出現(xiàn)“不認(rèn)識就看不見”的現(xiàn)象,這也被認(rèn)為是視覺的“先天缺陷”。比如少見的異形物體,如披薩盒,高速上奔跑的野生動物等,這種情況可能出現(xiàn)的概率并不高,但是一旦出現(xiàn)可能是致命的。

那么這個問題,在轉(zhuǎn)換到BEV空間后,可以解決嗎?

業(yè)內(nèi)專家給的答案很一致:不能。

BEV模型沒有訓(xùn)練過的物體,在BEV空間內(nèi),可能是“不存在”的。

不過仍然有其他辦法來彌補(bǔ)這個缺陷,具體如下:

01 深度(Depth)估計

當(dāng)前在2D感知方案中應(yīng)用比較廣泛的是底層視覺感知(low level vision)中的深度估計。

深度估計一般是通過激光雷達(dá)的稀疏點(diǎn)云提供的真值進(jìn)行訓(xùn)練,從而利用深度學(xué)習(xí)直接預(yù)測出稠密的深度值。通過預(yù)測深度就可以一定程度上解決異形物體問題。

如下圖所示的右側(cè)的拉了樹木的大車,如果使用普通的車輛檢測,因?yàn)檫@種訓(xùn)練樣本極少,可能會漏檢,而采用深度估計,至少可以知道該處有物體,可以及時采取措施,避免安全事故。

f113edbc-5b51-11ed-a3b6-dac502259ad0.png?

單目深度估計

引自地平線蘇治中主題為“面向規(guī)模化量產(chǎn)的自動駕駛感知研發(fā)與實(shí)踐”的線上分享

在BEV空間中,可以把底層視覺靜態(tài)感知到的深度預(yù)估,轉(zhuǎn)化為路面上的高度信息。下圖所示為一幀所感知到的結(jié)果,藍(lán)色表示路面,高度比較低,紅色表示凸起,紅色越深表示高度越高,也能看到一些地面上的凸起物體,可以根據(jù)識別出來的物體類別進(jìn)行后續(xù)的決策規(guī)劃,如果是無法識別的異形物體,那么最安全的方式就是避開它。

f13e56ec-5b51-11ed-a3b6-dac502259ad0.png

BEV空間中的底層視覺感知

引自地平線架構(gòu)師劉景初主題為“上帝視角與想象力——自動駕駛感知的新范式”的線上分享

鑒智機(jī)器人推出的視覺雷達(dá)也是采用類似的原理,通過前向雙目相機(jī)和環(huán)視相機(jī)產(chǎn)生深度信息生成稠密點(diǎn)云,并在BEV空間內(nèi)進(jìn)行目標(biāo)檢測。

f16fefd6-5b51-11ed-a3b6-dac502259ad0.png?

鑒智機(jī)器人提出的視覺雷達(dá)算法架構(gòu)

02 數(shù)據(jù)驅(qū)動

當(dāng)然,底層視覺感知的深度估計也不是萬能的,如果遇到一個沒訓(xùn)練過的數(shù)據(jù),可能在特征提取時就忽略了,所以,要解決這個問題的另一種方法就是數(shù)據(jù)驅(qū)動。

數(shù)據(jù)驅(qū)動依賴數(shù)據(jù)閉環(huán)工具鏈,各家也都開發(fā)了工具鏈系統(tǒng),比如毫末智行的LUCAS、地平線的AIDI等。

03 多傳感器冗余

在純視覺不能保證百分之百安全的情況下,采用多傳感器冗余的方案成為了眾多主機(jī)廠的選擇,尤其是激光雷達(dá),是對視覺非常好的補(bǔ)充。車端裝了激光雷達(dá)之后,由于有更高精度的數(shù)據(jù),能給視覺提供更好的真值數(shù)據(jù),也能更好地訓(xùn)練視覺算法。

就像均勝電子郭繼舜在一次線上分享時提到的,在不能保證完全安全的情況下,系統(tǒng)設(shè)計時考慮傳感器冗余、硬件堆料等是非常必要的,也是“系統(tǒng)設(shè)計的正義”。

BEV感知的挑戰(zhàn)

總體而言,BEV是個全新的感知范式,向上下游(如定位和預(yù)測)都有很大的拓展空間,業(yè)內(nèi)很多企業(yè)也都在積極探索實(shí)踐中,但在實(shí)踐中還有很多的挑戰(zhàn)需要克服。

01 數(shù)據(jù)問題

上文也提到了,BEV感知中最具備挑戰(zhàn)的還是如何獲取更多維度的數(shù)據(jù),以及產(chǎn)生更高質(zhì)量的真值。加上Transformer本身的特性,為更好地發(fā)揮優(yōu)勢,其對數(shù)據(jù)量的要求也比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)大得多,這就越發(fā)加劇了模型對數(shù)據(jù)的“饑渴”程度。

要應(yīng)對這個挑戰(zhàn),一方面依賴車端影子模式持續(xù)不斷地采集數(shù)據(jù),另一方面也依賴云端系統(tǒng)去做數(shù)據(jù)挖掘和真值生成,這需要持續(xù)不斷地去優(yōu)化云端真值系統(tǒng)的算法。

此外,為了減少標(biāo)注工作量,提升訓(xùn)練效率,自監(jiān)督學(xué)習(xí)也開始被引入到云端系統(tǒng)中。 和有監(jiān)督學(xué)習(xí)不同,自監(jiān)督學(xué)習(xí)的真值信息不是人工標(biāo)注的,而是算法自動構(gòu)造監(jiān)督信息(真值),來進(jìn)行監(jiān)督學(xué)習(xí)或訓(xùn)練。當(dāng)前自監(jiān)督學(xué)習(xí)已經(jīng)被應(yīng)用在數(shù)據(jù)挖掘、數(shù)據(jù)標(biāo)注和神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練中。

02 算力消耗問題

上文也提到過,由于使用Transfomer進(jìn)行BEV空間轉(zhuǎn)化非常消耗算力,對車端有限算力提出了挑戰(zhàn)。 目前主要有兩個優(yōu)化的方向:

2.1模型輕量化

圖像處理中,使用Transformer的計算復(fù)雜度與圖像尺寸的平方成正比,這會導(dǎo)致,在圖像很大的時候,計算量過于龐大。

如何在盡量不影響感知精度的前提下,降低Transformer的計算復(fù)雜度,節(jié)省車端算力,成了學(xué)術(shù)界和工業(yè)界普遍關(guān)注的問題。

為了解決這個問題,可以借鑒使用傳統(tǒng)CNN中的模型壓縮技巧來降低計算復(fù)雜度,比如:

剪枝:深度學(xué)習(xí)模型可以看作是一個復(fù)雜樹狀結(jié)構(gòu),如果能減去一些對結(jié)果沒什么影響的旁枝,就可以實(shí)現(xiàn)模型的減小。

量化:深度學(xué)習(xí)模型由大量的浮點(diǎn)型(float)權(quán)重參數(shù)組成,如果能用低精度類型(如int8)替代原有的高精度類型(如float32)的權(quán)重參數(shù),那么模型體積就會大大壓縮,低位的浮點(diǎn)計算速度會遠(yuǎn)遠(yuǎn)高于高位浮點(diǎn)計算速度,這也是最容易實(shí)現(xiàn)的壓縮方式。

此外,學(xué)術(shù)界也有一些最新的成果,可以供業(yè)界參考。 使用移動窗口操作(Shifted windowscheme)、具有層級設(shè)計的(hierarchicalarchitecture)的SwinTransformer,可以把計算復(fù)雜度大幅度降低到具有輸入圖像大小線性計算的復(fù)雜度,且在各種圖像任務(wù)上也都有很好的性能,因而SwinTransformer可以被當(dāng)做骨干網(wǎng)絡(luò)來使用。

借鑒了DCN(Deformable Convolutional Networks,可變形卷積網(wǎng)絡(luò))的思想,Deformable DETR將DETR中的注意力機(jī)制替換成可變形注意力機(jī)制(與全局(global)&密集(dense)的注意力機(jī)制不同,可變形注意力機(jī)制能夠聚焦于特征相關(guān)區(qū)域并捕獲信息,從而實(shí)現(xiàn)局部(local)&稀疏(sparse)的高效注意力機(jī)制),使DETR范式的檢測器更加高效,收斂速度也大大加快,并且給了業(yè)界啟發(fā),可以將可變形注意力泛化,形成了Deformable Transformer。

2.2多任務(wù)模型

除了上述模型壓縮技巧外,還有一個常用的技巧,就是共享權(quán)重,有點(diǎn)像提取公因數(shù),假設(shè)模型的每一層都有公用的公因數(shù),是否可以提取出來做一次運(yùn)算,而不是每一層都算一次,如共享骨干網(wǎng)絡(luò)等,這就是應(yīng)用普遍的多任務(wù)模型(Multi-Task learning)。

其中最出名的多任務(wù)模型,莫過于特斯拉的HydraNet,在一個模型中同時實(shí)現(xiàn)了目標(biāo)檢測、紅綠燈檢測和車道線檢測三個任務(wù)。

使用多任務(wù)模型最明顯的優(yōu)勢,就是因?yàn)楣蚕硖卣魈崛〉木W(wǎng)絡(luò)參數(shù),避免了大量的重復(fù)計算,效率大大提升。

除此外,多任務(wù)模型還有個額外好處,就是有時可以加速網(wǎng)絡(luò)的訓(xùn)練過程。因?yàn)楣蚕砭W(wǎng)絡(luò)的感知任務(wù)是強(qiáng)相關(guān)的,比如車道線檢測和動態(tài)目標(biāo)檢測,在訓(xùn)練其中一個任務(wù)時,共享網(wǎng)絡(luò)的特征提取能力也加強(qiáng)了,對于另外的任務(wù)的性能提升也是有幫助的。

那有沒有可能在訓(xùn)練多任務(wù)模型的時候出現(xiàn)不同的任務(wù)“相互傷害”“此消彼長”的現(xiàn)象呢?

據(jù)地平線蘇治中的線上分享中提到的,這種情況是有可能的,不過也有技巧辦法可以解決。比如某個任務(wù)對其他任務(wù)傷害很大,就可以降低這個任務(wù)的學(xué)習(xí)速率(learning rate),降低它的權(quán)重,如果實(shí)在無法兼容,還可以單獨(dú)再新建一個模型去訓(xùn)練這個任務(wù)。

比如BEVerse,就是在BEV空間內(nèi)完成的多任務(wù)模型感知任務(wù),完成了3D目標(biāo)檢測、局部語義地圖和運(yùn)動預(yù)測這三個任務(wù),且每個模塊都達(dá)到了當(dāng)前最優(yōu)水平( SOTA)。

3. BEV算法更復(fù)雜、門檻更高

相比于傳統(tǒng)2D圖像檢測,BEV感知算法會復(fù)雜得多,尤其是前文提到的云端的3D重建、4D空間的標(biāo)注、真值生成和模型訓(xùn)練,都是之前2D感知任務(wù)中所沒有的,相應(yīng)地難度和門檻自然也要高一些。

不過,朱政也提到,由于BEV感知進(jìn)入大家的視野還不太算太久,各家還在摸索中,有些算法還沒那么成熟,等到后續(xù)量產(chǎn)實(shí)踐多起來了,開源的工具也慢慢多起來了,門檻也會慢慢降低,“就像四五年前其實(shí)2D感知也沒那么好做,不過現(xiàn)在成熟多了,有很多開源的算法,工具鏈也很成熟了,門檻就顯得沒那么高了,”朱政說道。

未盡之語

隨著如BEV和Transformer等諸多視覺算法的進(jìn)展,視覺能力的上限也大大提升。

諸多業(yè)內(nèi)專家也提到,即使量產(chǎn)車輛裝了激光雷達(dá),在云端進(jìn)行數(shù)據(jù)處理時,還是會以視覺為主,“畢竟,相比激光雷達(dá)先天的缺點(diǎn)(如點(diǎn)云稀疏、缺少語義信息等),視覺的優(yōu)勢非常明顯,加上攝像頭出貨量更大,產(chǎn)業(yè)鏈更加成熟,后續(xù)升級也更加方便,比如可以很容易從800萬像素升級到1600萬像素,甚至現(xiàn)在手機(jī)攝像頭的像素已經(jīng)過億了”,一位專家告訴九章智駕。

之前采訪一家進(jìn)軍L2前裝量產(chǎn)市場的L4公司的CTO時,對方也提到,過去L4以激光雷達(dá)點(diǎn)云為主、視覺為輔的方案是有其歷史原因的,因?yàn)槟菚r基于深度學(xué)習(xí)的視覺算法還不成熟,能支持深度學(xué)習(xí)的大算力平臺也不成熟,不過目前,視覺在L4方案中占的分量會越來越重,甚至未來有可能超過激光雷達(dá)。

隨著圖像轉(zhuǎn)化到BEV空間后,也可以直接借鑒激光雷達(dá)、毫米波雷達(dá)領(lǐng)域的研究方法和進(jìn)展。如果未來進(jìn)一步繞過ISP,直接將RAW DATA輸入到感知模型中,可進(jìn)一步提升視覺在極限條件下(極暗和極亮)的感知能力,可以想象,未來視覺能力會有更大的發(fā)展,讓我們拭目以待。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4779

    瀏覽量

    101169
  • 多傳感器
    +關(guān)注

    關(guān)注

    0

    文章

    80

    瀏覽量

    15375
  • IPM
    IPM
    +關(guān)注

    關(guān)注

    5

    文章

    162

    瀏覽量

    39010

原文標(biāo)題:一文讀懂BEV空間內(nèi)的特征級融合

文章出處:【微信號:智能汽車電子與軟件,微信公眾號:智能汽車電子與軟件】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    LTC2245和國產(chǎn)模數(shù)轉(zhuǎn)換器SC2245特征以及應(yīng)用優(yōu)勢分享

    LTC2245和國產(chǎn)模數(shù)轉(zhuǎn)換器SC2245特征以及應(yīng)用優(yōu)勢分享
    的頭像 發(fā)表于 01-20 10:04 ?114次閱讀
    LTC2245和國產(chǎn)模數(shù)轉(zhuǎn)換器SC2245<b class='flag-5'>特征</b>以及應(yīng)用<b class='flag-5'>優(yōu)勢</b>分享

    受限空間NCM811鋰離子電池?zé)崾Э芈蛹昂圹E特征研究

    自主設(shè)計的密閉箱體模擬高鎳鋰離子電池受限空間內(nèi)熱蔓延特性,貼合鋰離子電池實(shí)際工作情況。2.本文研究對象選取的是市場占有率越
    的頭像 發(fā)表于 12-30 10:27 ?208次閱讀
    受限<b class='flag-5'>空間</b>NCM811鋰離子電池?zé)崾Э芈蛹昂圹E<b class='flag-5'>特征</b>研究

    探討智慧校園的特征優(yōu)勢

    智慧校園是利用信息技術(shù)和物聯(lián)網(wǎng)技術(shù)等智能化手段,對校園內(nèi)的設(shè)施、資源和管理進(jìn)行數(shù)字化、智能化改造與整合,以提升教學(xué)、科研、管理和服務(wù)水平的現(xiàn)代化校園。智慧校園具有一系列特征優(yōu)勢,以下
    的頭像 發(fā)表于 12-10 15:48 ?203次閱讀

    淺析基于自動駕駛的4D-bev標(biāo)注技術(shù)

    4D-bev標(biāo)注技術(shù)是指在3D空間中以時間作為第四個維度進(jìn)行標(biāo)注的過程。4D-bev通常在地場景較為復(fù)雜的自動駕駛場景中使用,其可以通過精準(zhǔn)地跟蹤和記錄動態(tài)對象的運(yùn)動軌跡、姿勢變化以及
    的頭像 發(fā)表于 12-06 15:01 ?1453次閱讀
    淺析基于自動駕駛的4D-<b class='flag-5'>bev</b>標(biāo)注技術(shù)

    如何對電磁頻譜特征進(jìn)行分析

    智慧華盛恒輝如何對電磁頻譜特征進(jìn)行分析 一、引言 電磁頻譜特征分析對于了解敵方的通信、雷達(dá)、電子對抗等系統(tǒng)的運(yùn)行狀態(tài)和性能至關(guān)重要。通過深入分析敵方的電磁頻譜特征,可以揭示其作戰(zhàn)意圖、
    的頭像 發(fā)表于 11-27 16:51 ?219次閱讀

    如何對電磁頻譜系統(tǒng)特征進(jìn)行分析

    智慧華盛恒輝如何對電磁頻譜系統(tǒng)特征進(jìn)行分析? 一、引言 電磁頻譜特征分析對于了解敵方的通信、雷達(dá)、電子對抗等系統(tǒng)的運(yùn)行狀態(tài)和性能至關(guān)重要。通過深入分析敵方的電磁頻譜特征,可以揭示其作戰(zhàn)
    的頭像 發(fā)表于 11-27 15:06 ?193次閱讀

    自動駕駛中一直說的BEV+Transformer到底是個啥?

    在很多車企的自動駕駛介紹中,都會聽到一個關(guān)鍵技術(shù),那就是BEV+Transformer,那BEV+Transformer到底是個啥?為什么很多車企在自動駕駛技術(shù)中都十分追捧這項(xiàng)技術(shù)?其實(shí)“BEV
    的頭像 發(fā)表于 11-07 11:19 ?532次閱讀
    自動駕駛中一直說的<b class='flag-5'>BEV</b>+Transformer到底是個啥?

    FPGA在圖像處理領(lǐng)域的優(yōu)勢有哪些?

    FPGA(Field Programmable Gate Array,現(xiàn)場可編程門陣列)在圖像處理領(lǐng)域具有顯著的優(yōu)勢,這些優(yōu)勢主要體現(xiàn)在以下幾個方面: 一、高并行處理能力 FPGA內(nèi)部擁有大量的邏輯
    發(fā)表于 10-09 14:36

    5G+藍(lán)牙融合定位的優(yōu)勢及應(yīng)用場景

    隨著科技的不斷進(jìn)步,物聯(lián)網(wǎng)技術(shù)迅速發(fā)展,5G融合定位成為趨勢。本文將探討5G+藍(lán)牙融合定位的優(yōu)勢,并介紹其應(yīng)用場景。 首先,我們需要了解什么是5G和藍(lán)牙融合定位技術(shù)。5G作為第五代移動
    的頭像 發(fā)表于 09-09 11:00 ?562次閱讀

    毫米波雷達(dá)具有哪些特點(diǎn)和優(yōu)勢

    毫米波雷達(dá)是一種利用毫米波段電磁波進(jìn)行探測和測量的雷達(dá)系統(tǒng)。它具有許多特點(diǎn)和優(yōu)勢,使其在許多領(lǐng)域得到廣泛應(yīng)用。以下是毫米波雷達(dá)的一些主要特點(diǎn)和優(yōu)勢: 高分辨率:毫米波雷達(dá)
    的頭像 發(fā)表于 08-16 10:04 ?1827次閱讀

    bnc彎公頭有哪些優(yōu)勢和特點(diǎn)

    設(shè)計,這種設(shè)計使得在有限的空間內(nèi)能夠更靈活地布線,避免了直線連接器可能帶來的空間浪費(fèi)和布線難題。在設(shè)備密集或空間受限的環(huán)境中,如服務(wù)器機(jī)房、監(jiān)控中心等,BNC彎公頭能
    的頭像 發(fā)表于 08-14 09:05 ?442次閱讀
    bnc彎公頭有哪些<b class='flag-5'>優(yōu)勢</b>和特點(diǎn)

    訊維融合通信系統(tǒng)在醫(yī)療領(lǐng)域的應(yīng)用:打破時間與空間的限制

    融合通信系統(tǒng)在醫(yī)療領(lǐng)域的應(yīng)用,無疑為醫(yī)療服務(wù)打破了時間與空間的限制,提供了更為高效、便捷和智能的通信解決方案。以下是關(guān)于融合通信系統(tǒng)在醫(yī)療領(lǐng)域應(yīng)用的一些主要方面: 首先,融合通信系統(tǒng)通
    的頭像 發(fā)表于 04-12 15:34 ?478次閱讀

    未來已來,多傳感器融合感知是自動駕駛破局的關(guān)鍵

    感知系統(tǒng)可同步完成目標(biāo)識別與樣本采樣,也就是說車廠可以利用配備融合感知系統(tǒng)的汽車進(jìn)行大數(shù)據(jù)采集,分析其廣大車主的駕駛數(shù)據(jù)來建立自身的數(shù)據(jù)優(yōu)勢。另外,特斯拉的軟件能力現(xiàn)已成為差異化賣點(diǎn),F(xiàn)SD套件
    發(fā)表于 04-11 10:26

    黑芝麻智能開發(fā)多重亮點(diǎn)的BEV算法技術(shù) 助力車企高階自動駕駛落地

    隨著視覺算法的演進(jìn),BEV(Bird's-Eye-View Perception)感知算法成為主機(jī)廠和自動駕駛公司發(fā)力城市場景的核心技術(shù)之一,BEV 感知通過從高處統(tǒng)觀全局的“上帝視角”,融合車載多視角攝像頭的輸入,然
    的頭像 發(fā)表于 03-29 18:18 ?2005次閱讀
    黑芝麻智能開發(fā)多重亮點(diǎn)的<b class='flag-5'>BEV</b>算法技術(shù) 助力車企高階自動駕駛落地

    工業(yè)路由器的性能優(yōu)勢

    業(yè)路由器的性能優(yōu)勢主要體現(xiàn)在強(qiáng)大的處理能力、高可靠性、高效的流量控制、易于集成和安全性能等方面。這些優(yōu)勢使得工業(yè)路由器成為越來越多企業(yè)的首選,尤其是在需要處理大量數(shù)據(jù)和需要保持生產(chǎn)
    的頭像 發(fā)表于 03-05 20:01 ?422次閱讀
    工業(yè)<b class='flag-5'>級</b>路由器的性能<b class='flag-5'>優(yōu)勢</b>