感知是什么?
在自動(dòng)駕駛賽道中,感知的目的是為了模仿人眼采集相關(guān)信息,為后續(xù)做決策提供必要的信息。根據(jù)所做決策的任務(wù)不同,感知可以包括很多子任務(wù):如車道線檢測(cè)、3D目標(biāo)檢測(cè)、障礙物檢測(cè)、紅綠燈檢測(cè)等等;再根據(jù)感知預(yù)測(cè)出的結(jié)果,完成決策;最后根據(jù)決策結(jié)果執(zhí)行相應(yīng)的操作(如變道、超車等);
如何進(jìn)行感知?
由于感知是為了模仿人眼獲取周圍的環(huán)境信息,那就必然需要用到傳感器來(lái)完成信息的采集工作;目前在自動(dòng)駕駛領(lǐng)域中用到的傳感器包括:攝像頭(camera)、激光雷達(dá)(lidar)、毫米波雷達(dá)(radar)等;
可以看到傳感器的種類眾多且成本參差不齊,所以如何使用這些傳感器進(jìn)行感知任務(wù),各個(gè)自動(dòng)駕駛廠商都有各自的解決方案;
純視覺(jué)的感知方案
目前Tesla是純視覺(jué)感知方案的典型代表;
純視覺(jué)感知方案的優(yōu)缺點(diǎn)也很明顯:優(yōu)點(diǎn):價(jià)格成本很低;缺點(diǎn):攝像頭采集到的圖片是2D的,缺少深度信息,深度信息需要靠算法學(xué)習(xí)得到,缺少魯棒性;
多傳感器融合的感知方案
目前大多數(shù)廠商采用的都是多傳感器融合的解決方案;其優(yōu)缺點(diǎn)是:優(yōu)點(diǎn):能夠充分利用不同工作原理的傳感器,提升對(duì)不同場(chǎng)景下的整體感知精度,也可以在某種傳感器出現(xiàn)失效時(shí),其他傳感器可以作為冗余備份,提高系統(tǒng)的魯棒性;缺點(diǎn):由于采用多種傳感器價(jià)格相比純視覺(jué)高很多;
多傳感器融合的感知方案
傳感器后融合
所謂后融合,是指各傳感器針對(duì)目標(biāo)物體單獨(dú)進(jìn)行深度學(xué)習(xí)模型推理,從而各自輸出帶有傳感器自身屬性的結(jié)果;每種傳感器的識(shí)別結(jié)果輸入到融合模塊,融合模塊對(duì)各傳感器在不同場(chǎng)景下的識(shí)別結(jié)果,設(shè)置不同的置信度,最終根據(jù)融合策略進(jìn)行決策。
整體流程圖如下:
圖源:https://mp.weixin.qq.com/s/bmy9EsQaLNPQQKt9mPTroA
優(yōu)點(diǎn):不同的傳感器都獨(dú)立進(jìn)行目標(biāo)識(shí)別,解耦性好,且各傳感器可以互為冗余備份;同時(shí)后融合方案便于做標(biāo)準(zhǔn)的模塊化開(kāi)發(fā),把接口封裝好,提供給主機(jī)廠“即插即用”;對(duì)于主機(jī)廠來(lái)說(shuō),每種傳感器的識(shí)別結(jié)果輸入到融合模塊,融合模塊對(duì)各傳感器在不同場(chǎng)景下的識(shí)別結(jié)果,設(shè)置不同的置信度,最終根據(jù)融合策略進(jìn)行決策。
缺點(diǎn):存在“時(shí)間上的感知不連續(xù)”及“空間上的感知碎片化”
空間上的感知碎片化
由于車身四周的lidar、camera角度的安裝問(wèn)題,多個(gè)傳感器實(shí)體無(wú)法實(shí)現(xiàn)空間域內(nèi)的連續(xù)覆蓋和統(tǒng)一識(shí)別,導(dǎo)致攝像頭只捕捉到了目標(biāo)的一小部分,無(wú)法根據(jù)殘缺的信息作出正確的檢測(cè)結(jié)果,從而使得后續(xù)的融合效果無(wú)法保證。
時(shí)間上的感知不連續(xù)
攝像頭采集到的結(jié)果是以幀為單位的,常用的感知方法是把連續(xù)單幀的檢測(cè)結(jié)果串聯(lián)起來(lái),類似后融合的策略,無(wú)法充分利用時(shí)序上的有用信息。
傳感器前融合
所謂前融合,是將各個(gè)傳感器采集到的數(shù)據(jù)匯總到一起,經(jīng)過(guò)數(shù)據(jù)同步后,對(duì)這些原始數(shù)據(jù)進(jìn)行融合。
整體流程圖如下:
圖源:https://mp.weixin.qq.com/s/bmy9EsQaLNPQQKt9mPTroA
優(yōu)點(diǎn):讓數(shù)據(jù)更早的做融合,使數(shù)據(jù)更有關(guān)聯(lián)性;比如把激光雷達(dá)的點(diǎn)云數(shù)據(jù)和攝像頭的像素級(jí)數(shù)據(jù)進(jìn)行融合,數(shù)據(jù)的損失也會(huì)比較少。
缺點(diǎn):由于不同傳感器獲取的數(shù)據(jù)(攝像圖獲取的像素?cái)?shù)據(jù)以及激光雷達(dá)獲取的點(diǎn)云數(shù)據(jù)),其坐標(biāo)系是不同的;視覺(jué)數(shù)據(jù)是2D空間,而激光雷達(dá)的點(diǎn)云數(shù)據(jù)是3D空間。所以在異構(gòu)數(shù)據(jù)的融合時(shí),有兩種途徑:途徑一:在圖像空間利用點(diǎn)云數(shù)據(jù)提供深度信息;途徑二:在點(diǎn)云空間利用視覺(jué)數(shù)據(jù)提供語(yǔ)義特征,進(jìn)行點(diǎn)云染色或特征渲染;
所以為了保證將不同坐標(biāo)系下的數(shù)據(jù)(像素?cái)?shù)據(jù)、點(diǎn)云數(shù)據(jù))轉(zhuǎn)換到同一坐標(biāo)系下進(jìn)行數(shù)據(jù)融合方便后續(xù)的感知任務(wù),BEV(Bird Eye View)視角下的感知逐漸受到廣泛的關(guān)注。
傳感器中融合
所謂中融合,就是先將各個(gè)傳感器采集到的數(shù)據(jù)通過(guò)神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)的特征,再對(duì)神經(jīng)網(wǎng)絡(luò)提取到的多種傳感器特征進(jìn)行特征級(jí)的融合,從而更有可能得到最佳感知結(jié)果。對(duì)異構(gòu)數(shù)據(jù)提取到的特征在BEV空間進(jìn)行特征級(jí)的融合,一來(lái)數(shù)據(jù)損失少,二來(lái)算力消耗也較少(相對(duì)于前融合),所以針對(duì)BEV視角下的感知任務(wù),采用中融合的策略比較多。
BEV視角下的感知任務(wù)范式
- 將攝像頭數(shù)據(jù)(2D圖片)輸入到特征提取網(wǎng)絡(luò)中完成多個(gè)攝像頭數(shù)據(jù)的特征提取;
- 將所有攝像頭數(shù)據(jù)提取到的特征通過(guò)網(wǎng)絡(luò)學(xué)習(xí)的方式映射到BEV空間下;
- 在BEV空間下,進(jìn)行異構(gòu)數(shù)據(jù)的融合,將圖像數(shù)據(jù)在BEV空間下映射的特征與激光雷達(dá)點(diǎn)云特征進(jìn)行融合;(可選,如BEVFormer僅用6個(gè)攝像頭構(gòu)建BEV空間特征)
- 進(jìn)行時(shí)序融合,融合前幾個(gè)時(shí)刻的特征,增強(qiáng)感知能力;(個(gè)人認(rèn)為:引入時(shí)序特征后可以在一定程度上解決遮擋問(wèn)題)
- 根據(jù)獲得到BEV特征,用于下游任務(wù);(車道線檢測(cè)、障礙物檢測(cè)、3D目標(biāo)檢測(cè)等子任務(wù),相當(dāng)于整個(gè)模型是一個(gè)多任務(wù)學(xué)習(xí)模型)
BEV視角下的感知具有的優(yōu)勢(shì)
- 跨攝像頭融合和異構(gòu)數(shù)據(jù)融合更容易實(shí)現(xiàn)
跨攝像頭融合或者異構(gòu)數(shù)據(jù)進(jìn)行融合時(shí),由于不同數(shù)據(jù)其表示的坐標(biāo)系不同,需要用很多后處理規(guī)則去關(guān)聯(lián)不同傳感器的感知結(jié)果,流程非常復(fù)雜。在BEV空間內(nèi)做融合后,通過(guò)網(wǎng)絡(luò)自主學(xué)習(xí)映射規(guī)則,產(chǎn)生BEV特征用于感知下游任務(wù),算法實(shí)現(xiàn)更加簡(jiǎn)單,并且BEV空間內(nèi)視覺(jué)感知到的物體大小和朝向也都能直接得到表達(dá)。
- 時(shí)序融合更容易實(shí)現(xiàn)
在構(gòu)建BEV空間時(shí),可以很容易地融合時(shí)序信息,使得獲取的BEV特征可以更好地實(shí)現(xiàn)下游的一些感知任務(wù),如測(cè)速任務(wù)。
- 一定程度上緩解感知任務(wù)中的遮擋問(wèn)題
傳統(tǒng)的2D感知任務(wù)只能感知看得見(jiàn)的目標(biāo),對(duì)于遮擋完全無(wú)能為力,而在BEV空間內(nèi),可以基于先驗(yàn)知識(shí)或者利用時(shí)序融合,對(duì)被遮擋的區(qū)域進(jìn)行預(yù)測(cè),從而“腦補(bǔ)”出被遮擋區(qū)域可能存在物體。雖然“腦補(bǔ)”出的物體,有一定“想象”的成分,但這對(duì)于下游的規(guī)控模塊仍有很多好處。
- 方便多任務(wù)學(xué)習(xí)
使用傳統(tǒng)方法做感知任務(wù)時(shí),需要依次做目標(biāo)識(shí)別、追蹤和運(yùn)動(dòng)預(yù)測(cè),更像是個(gè)“串行系統(tǒng)”,上游的誤差會(huì)傳遞到下游從而造成誤差累積;而在BEV空間內(nèi),感知和運(yùn)動(dòng)預(yù)測(cè)在統(tǒng)一空間內(nèi)完成,因而可以通過(guò)神經(jīng)網(wǎng)絡(luò)直接做端到端優(yōu)化,“并行”出結(jié)果,這樣既可以避免誤差累積,也大大減少了人工邏輯的作用,讓感知網(wǎng)絡(luò)可以通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式來(lái)自學(xué)習(xí),從而更好地實(shí)現(xiàn)功能迭代。
-
目標(biāo)檢測(cè)
+關(guān)注
關(guān)注
0文章
211瀏覽量
15650 -
感知系統(tǒng)
+關(guān)注
關(guān)注
1文章
72瀏覽量
15976 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
784文章
13923瀏覽量
166801
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論