本文整理了多傳感器數(shù)據(jù)融合(Multi-Sensor Data Fusion,MSDF)的要點和基本方法。介紹了Harmonize、Reconcile、Integrate、Synthesize之間的區(qū)別和對應的解決方案。文章主要圍繞什么是MSDF;為什么要MSDF和如何進行MSDF展開,希望給對自動駕駛感興趣的小伙伴,提供一些參考。
許多人工智能系統(tǒng)的一個關鍵要素是具有多傳感器數(shù)據(jù)融合(Multi-Sensor Data Fusion,MSDF)的能力。在人工智能系統(tǒng)處于一個特定的環(huán)境時,MSDF需要對周圍環(huán)境數(shù)據(jù)進行Harmonize;Reconcile;Integrate;Synthesize。簡單來說,傳感器相當于眼睛耳朵等輸入感官,而人工智能系統(tǒng)需要以某種方式解釋這些輸入感官收集回來的信息,使其成為在現(xiàn)實世界可以被解釋且有價值的信息。在駕駛汽車時,多目標跟蹤(Multi-Target Tracking,MTT)也是非常重要的課題——設想在市中心開車,周圍都是行人和車輛,人類駕駛員要準確的識別并躲避他們,自動駕駛汽車也是。所以,這要求傳感器融合具備一個必須的性質(zhì)——實時性,就像人類每時每刻都在大腦中進行傳感器融合一樣。盡管人類不會公開地明確地將想法付諸于行動,但是這些“傳感器融合”過程都是自然發(fā)生的。
自動駕駛的MSDF
首先,需要明確一個老生常談的概念——SAE對于自動駕駛等級的劃分。SAE給自動駕駛汽車劃分為5個等級,對于L5以下的自動駕駛汽車,要求必須有一個人類駕駛員(安全員)在場。目前,人工智能和人類駕駛員共同承擔駕駛任務,而人類駕駛員被認定為汽車行為的責任人。
回到MSDF的話題,下圖展示了人工智能自動駕駛汽車如何進行MSDF的一些關鍵要素。
上圖指出了MSDF面臨的主要挑戰(zhàn)是如何將收集來的大量數(shù)據(jù)集中在一起,并做出正確決策。因為如果MSDF出錯,意味著下游階段要么沒有必要的信息,要是使用了錯誤的信息做出了錯誤的決策。可以看到,一般來說,自動駕駛汽車會通過安裝在車身周圍的攝像頭收集視覺數(shù)據(jù),也會通過雷達(激光雷達、毫米波雷達等)來收集諸如周圍物體運動速度的數(shù)據(jù),但是這些數(shù)據(jù)是從不同角度來描述現(xiàn)實世界的同一樣或不同樣的物體。所以,使用什么類型的傳感器,怎么融合傳感器收集回來的數(shù)據(jù),使用多少傳感器才能實現(xiàn)基于數(shù)據(jù)的對客觀世界的描述呢?通常來說,使用越多的傳感器,對計算能力的要求就越高,這意味著自動駕駛汽車必須搭載更多的計算機處理器和內(nèi)存,這也會增加汽車的重量,需要更多的功率,還會產(chǎn)生更多的熱量。諸如此類的缺點還有很多。
多傳感器融合(MSDF)的四個關鍵方法
圖 Harmonize;Reconcile;Integrate;Synthesize的區(qū)別
Harmonize:
假設有兩種不同的傳感器,稱它們?yōu)閭鞲衅鱔和傳感器Z。它們都能夠感知自動駕駛汽車的外部世界。在現(xiàn)實世界中存在一個物體,這個物體可能是人,也可能是車,甚至是一條狗,傳感器X和傳感器Z都能夠檢測到這個物體。這就意味著傳感器對這個物體進行了雙重檢測,這種雙重檢測意味著兩種不同類型的傳感器都有關于該物體的數(shù)據(jù)報告,對于該物體有兩個維度不同地認知。假設,傳感器X表示該物體高6英尺,寬2英尺;傳感器Z表示該物體以每秒3英尺的速度正朝著自動駕駛車輛方向移動。結合兩個傳感器采集到的數(shù)據(jù),就可以得出一條相對準確的信息:有一個高約6英尺,寬2英尺的物體正在以每秒鐘3英尺的速度移動。假設這兩自動駕駛汽車上只安裝了X傳感器,那么就無法得知該物體的大??;若Z傳感器壞了,那么就只有物體的大小信息,無法檢測該物體的運動狀態(tài)。這也就是最近業(yè)內(nèi)廣泛討論的“在自動駕駛汽車上應該安裝哪些傳感器”的問題。
此前,特斯拉埃隆·馬斯克(Elon Musk)旗幟鮮明地聲稱,特斯拉不會安裝激光雷達。盡管馬斯克自己也認為,L5自動駕駛不會通過激光雷達來實現(xiàn)這個想法最終可能被驗證為錯誤的,這依舊沒有改變馬斯克的決定。一些反對的聲音稱,不配備激光雷達的特斯拉,無法通過其他的傳感器獲取如同激光雷達效果相同的感官輸入,也無法提供補償和三角測量。但是另一些支持者認為,激光雷達不值得話費如此高昂的費用成本,不值得為其增大計算能力,也不值得為其增加認知時間。
Reconcile:
在同一個視場(Field of View,F(xiàn)OV)內(nèi),假設傳感器X探測到一個物體,而傳感器Z沒有探測到。注意,這與物體完全在傳感器Z的FOV之外的情況有很大的不。一方面,系統(tǒng)會認為傳感器X是正確的,Z是錯誤的,可能是因為Z有故障,或者有模糊探測,或者是其他的一些什么原因。另一個方面,也許傳感器X是錯誤的,X可能是報告了一個“幽靈”(實際上并不存在的東西),而傳感器Z報告那里沒有東西是正確的。
Integrate:
假設我們有兩個物體a和b,分別在傳感器X和傳感器Z的視場FOV內(nèi)(a在X視場內(nèi),b在Z視場內(nèi))。也就是說,Z無法直接檢測到a,X也無法直接檢測到b。目前,想要實現(xiàn)的效果是,能否將X和Z的報告整合在一起,讓它們在各自的視場內(nèi)探測物體同時,判斷是否為X視場中的物體正在向Z視場移動,預先提醒Z將有物體進入探測區(qū)域。
Synthesize:
第四種方法Synthesize是將感知數(shù)據(jù)融合在一起,你可能會遇到這樣的情況,傳感器X和傳感器Z都沒有在各自的視場內(nèi)探測到物體。在這種情況下,沒有傳感器知道這個物體的存在,但是可以通過一些其他的感觀數(shù)據(jù),比如聲音,間接地弄清楚在視場之外的物體情況。自動駕駛汽車是時刻運動的,所以要求這種預判是瞬間發(fā)生的,像上文提到的一樣,是實時的。
基于以上四種方法的解釋,當各種不同傳感器收集回來的數(shù)據(jù)結合在一起時,使用什么方法來處理這些數(shù)據(jù)呢?
絕對排序法:在這種方法中,需要事先決定一個傳感器的排序。比如,攝像投的級別高于雷達,或者雷達的級別高于攝像頭等等。在傳感器融合過程中,子系統(tǒng)使用預先確定的排序。比如,在Reconcile情況中,在交叉的視場FOV中,X檢測到了物體,但是Z沒有檢測到,而攝像頭傳感器X的級別高于雷達傳感器Z,那么Z的檢測結果不納入考慮范圍內(nèi)也是允許的。這個方法簡單、快速、易實現(xiàn),但是綜合考慮,這種方法并不嚴謹。
情況排序法:這種方法與絕對排名法相似,但不同之處在于,根據(jù)所處的環(huán)境,排名是可變的。例如,我們可能已經(jīng)設置好,如果有下雨的天氣,攝像頭容易受到雨水干擾,進而攝像頭優(yōu)先級降低,雷達擁有最高優(yōu)先級。這種方法相對簡單、快速、易于實現(xiàn)。然而,從全局角度看,它依然有所不足。
平等投票(協(xié)商一致)法:在這種方法中,允許每個傳感器進行投票且投票能力都是平等的。然后使用一個計數(shù)算法,該算法與投票結果相匹配。如果傳感器的某個閾值都同意某個物體,而某些閾值不同意,那么就允許這個閾值決定人工智能系統(tǒng)做出判斷。同樣,這種方法綜合看起來依然有所不足。
加權投票法:有點類似于平等投票的方法,這種方法增加了一個權重,并選擇假設一些傳感器比另一些傳感器更重要。比如,系統(tǒng)可能傾向于認為攝像頭比雷達更可靠,所以給攝像頭一個更高的加權系數(shù)等。
概率投票法:還可以引入概率概念。傳感器有自己的控制子系統(tǒng),可以確定傳感器是否得到了真實的數(shù)據(jù),然后將概率使用到多個傳感器的投票方法中。
爭論方法:還有一種新的方法是讓每個傳感器“辯論”為什么他們的報告是合適的。這是一個比較有趣的概念。相關研究和實驗正在進行中。
優(yōu)先到達法:即優(yōu)先報告結果的傳感器獲勝。出于計時的目的,系統(tǒng)不會等待其他傳感器報告,從而加快傳感器的融合工作。但是從另一個角度講,無法預測下一秒鐘其他傳感器是否會報告相反的判斷,這存在一定的安全隱患。
最可靠法:在這種方法中,需要跟蹤自動駕駛汽車上無數(shù)傳感器的可靠性。當存在各個傳感器之間的數(shù)據(jù)爭議時,最可靠的傳感器將“獲勝”。
在設計自動駕駛汽車時,可以在傳感器融合子系統(tǒng)中使用以上的幾種方法。當子系統(tǒng)確定一種方法可能優(yōu)于另一種方法時,它們就可以各自發(fā)揮作用。當然,MSDF也可以通過很多其它的本文未提及的方法進行。
多個傳感器之間的差異非常重要
人類的聽覺和視覺是不一樣的。當人類聽到警報聲時,使用耳朵這種感官。耳朵不像眼睛,眼睛不能聽聲音。這個例子可以生動地說明,在自動駕駛領域,一定有許多不同類型的傳感器,多傳感器融合MSDF的首要任務是,要利用不同種傳感器的優(yōu)勢,同時最小化或弱化每種傳感器的弱點。
上圖中,每一種傳感器的一個重要特征都是它能夠探測到目標的距離。傳感器能夠探測到的距離越遠,人工智能駕駛任務的提前時間和優(yōu)勢就越大。但是,一些研究結果標明,較遠端的數(shù)據(jù)可能缺乏特征或者缺乏可信度。隨著技術的日新月異,需要根據(jù)所涉及的距離確定傳感器融合的優(yōu)缺點。以下是一些常用傳感器的探測數(shù)據(jù)(隨著技術的進步,以下數(shù)據(jù)可能隨時更新):
Main Forward Camera: 150 m (about 492 feet) typically, condition dependent
Wide Forward Camera: 60 m (about 197 feet) typically, condition dependent
Narrow Forward Camera: 250 m (about 820 feet) typically, conditions dependent
Forward Looking Side Camera: 80 m (about 262 feet) typically, condition dependent
Rear View Camera: 50 m (about 164 feet) typically, condition dependent
Rearward Looking Side Camera: 100 m (about 328 feet) typically, condition dependent
Radar: 160 m (about 524 feet) typically, conditions dependent
Ultrasonic: 8 m (about 26 feet) typically, condition dependent
LIDAR: 200 m (about 656 feet) typically, condition dependent
有專家稱,在比較各種類型的傳感器時,業(yè)內(nèi)有許多圖表試圖描述這些傳感器的優(yōu)點和缺點。專家建議不要盲目相信的這些對比圖表。因為用于比較傳感器的標準非常多,但是一些常見圖表僅僅提取幾個典型特征進行對比,缺乏可信度。如下圖(僅供參考):
筆者觀點:在自動駕駛領域,傳感器是一個非常博眼球的字眼。但是,一旦涉及具體技術和魯棒性,目前并沒有太多的企業(yè)或技術型公司給出一份值得信服的答卷。業(yè)內(nèi)普遍認為,自動駕駛汽車的未來是保障人的安全,而保障人的安全都依賴于多傳感器融合MSDF。人類每時每刻都在做著“多傳感器融合”的工作,想要將自動駕駛汽車的多傳感器融合做到像人類一樣盡善盡美,還有很多復雜的工作要做。
評論
查看更多