特斯拉利用8個攝像頭來識別現(xiàn)實世界中的物體。攝像頭獲取的圖像包括行人、其他車輛、動物或障礙物,這不僅對特斯拉車輛駕駛員的安全很重要,對其他人也很重要。專利稱,重要的是,攝像頭能夠及時準確地識別這些物體。
特斯拉專利框
特斯拉專利演示
從算法的代碼層面來說,特斯拉把它們的深度學習網(wǎng)絡稱為HydraNet。其中,基礎算法代碼是共享的,整個HydraNet包含48個不同的神經(jīng)網(wǎng)絡,通過這48個神經(jīng)網(wǎng)絡,就能輸出1000個不同的預測張量。理論上來說,特斯拉的這個超級網(wǎng)絡,能同時檢測1000種物體。完成這些運算并不簡單,特斯拉已經(jīng)耗費了7萬個GPU小時進行深度學習模型訓練。
雖然工作量很大,但由于大部分工作由機器承擔,特斯拉的人工智能團隊僅由幾十人組成,與其他自動駕駛公司數(shù)百人甚至數(shù)千人的規(guī)模相比,確實規(guī)模不大。
完成2D的圖像還不算牛掰的,畢竟云端有超級計算機可以去訓練,本地的芯片也是自己開發(fā)的,可以很好的匹配算法,特斯拉真正牛掰的地方,通過視覺完成3D的深度信息,并可以通過視覺建立高精度地圖,完成一些底下停車場的附件駕駛場景。
特斯拉全車共配備了8個攝像頭,一個毫米波雷達和12個超聲波雷達,監(jiān)測外部環(huán)境,向自動駕駛電腦實時傳送信息。
特斯拉車外傳感器
簡單來看,特斯拉的攝像頭、毫米波雷達、超聲波雷達以及慣性測量單元記錄下當前車輛所處的環(huán)境數(shù)據(jù),并將數(shù)據(jù)發(fā)送給特斯拉的自動駕駛電腦。自動駕駛電腦在進行算法的計算之后,將速度和方向信息傳遞給轉(zhuǎn)向舵以及加速、制動踏板,實現(xiàn)對車輛的控制。
不過,在日常行駛過程中,攝像頭作為傳感器捕捉的內(nèi)容都是二維圖像,并沒有深度信息。
也就是說,雖然二維圖像已經(jīng)可以區(qū)分公路和路旁的人行道,但并不知道現(xiàn)在車輛距離“馬路牙子”還有多遠。由于缺失這樣一個重要信息,自動駕駛的運算可能并不準確,操作可能出錯。因此,捕捉或者建立一個三維的圖景很有必要。
特斯拉使用三目相機的,它可以通過比較兩個攝像頭圖像的差異判斷物體的遠近,獲得物體的深度信息。通過中央處理器對輸入圖像進行感知、分割、檢測、跟蹤等操作,輸出給導航網(wǎng)絡端進行語義建圖及匹配定位,同時通過目標識別形成相應的ADAS系統(tǒng)目標屬性。
特斯拉還有更厲害的地方,那就是算法可以預測流媒體視頻中每一個像素的深度信息。也就是說,只要算法足夠好,流媒體視頻更加清晰,特斯拉的視覺傳感器所捕捉的深度信息甚至可以超過激光雷達。
在實際的自動駕駛應用中,泊車入位和智能召喚兩個使用場景下就能充分利用這套算法。在停車場行駛時,車輛之間的距離很小,即使是駕駛員駕駛,稍不留神也很容易出現(xiàn)刮蹭事故。對于機器來說,停車場場景的行駛更加困難。在預測到深度信息之后,車輛可以在超聲波雷達的輔助之下,快速完成對周圍環(huán)境的識別,車輛泊車就會更加順利。
在完成深度信息的預測之后,這部分信息會顯示在車機上,同時也會直接參與控制轉(zhuǎn)向、加速、制動等駕駛動作。不過,轉(zhuǎn)向、加速、制動這些駕駛策略沒有固定的規(guī)則,有一定靈活性。因此,自動駕駛的駕駛策略沒有最佳,只有更好。
怎么提高神經(jīng)網(wǎng)絡的算法效率:
為什么這么多廠家只有百度敢挑戰(zhàn)視覺為主的輔助駕駛方案,不使用激光雷達,其中很大一個原因就是神經(jīng)網(wǎng)絡算法相當耗費芯片算力和內(nèi)存資源,本地端的芯片要算力足夠強大,對于神經(jīng)網(wǎng)絡的算法要有優(yōu)化。
對于神經(jīng)網(wǎng)絡來說,其實很多的連接并不是一定要存在的,也就是說我去掉一些連接,可能壓縮后的網(wǎng)絡精度相比壓縮之前并沒有太大的變化?;谶@樣的理念,很多剪枝的方案也被提了出來,也確實從壓縮的角度帶來了很大效果提升。
需要特別提出的是,大家從圖中可以看到,深度學習神經(jīng)網(wǎng)絡包括卷積層和全連接層兩大塊,剪枝對全連接層的壓縮效率是最大的。下面柱狀圖的藍色部分就是壓縮之后的系數(shù)占比,從中可以看到剪枝對全連接層的壓縮是最大的,而對卷積層的壓縮效果相比全連接層則差了很多。
所以這也是為什么,在語音的加速上很容易用到剪枝的一些方案,但是在機器視覺等需要大量卷積層的應用中剪枝效果并不理想。
對于整個Deep Learning網(wǎng)絡來說,每個權重系數(shù)是不是一定要浮點的,定點是否就能滿足?定點是不是一定要32位的?很多人提出8位甚至1位的定點系數(shù)也能達到很不錯的效果,這樣的話從系數(shù)壓縮來看就會有非常大的效果。從下面三張人臉識別的紅點和綠點的對比,就可以看到其實8位定點系數(shù)在很多情況下已經(jīng)非常適用了,和32位定點系數(shù)相比并沒有太大的變化。所以,從這個角度來說,權重系數(shù)的壓縮也會帶來網(wǎng)絡模型的壓縮,從而帶來計算的加速。
這些都需要非常資深的軟件算法團隊去優(yōu)化,同時需要懂得底層芯片的資源情況,而百度在人工算法這方面非常具有優(yōu)勢,所以有勇氣去挑戰(zhàn)視覺為主的自動駕駛 Apollo Lite方案。
百度表示,攝像頭是相對成熟的傳感器,除具備輕巧低成本和符合車規(guī)的優(yōu)勢外,高分辨率高幀率(成像頻率)的成像技術發(fā)展趨勢意味著圖像內(nèi)蘊含的環(huán)境信息更豐富,同時視頻數(shù)據(jù)也和人眼感知的真實世界最為相似,但和三維點云數(shù)據(jù)相比,二維圖像中的信息更難挖掘,需要設計更強大的算法、大量數(shù)據(jù)的積累和更長期的研發(fā)投入。
責任編輯:lq6
-
攝像頭
+關注
關注
60文章
4860瀏覽量
96079 -
特斯拉
+關注
關注
66文章
6322瀏覽量
126704
原文標題:【行業(yè)資訊】自動駕駛傳感器之攝像頭(十二)特斯拉圖像識別原理闡述
文章出處:【微信號:qidianxiehui,微信公眾號:深圳市汽車電子行業(yè)協(xié)會】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論