盡管汽車工業(yè)目前正集中討論自動駕駛,但要讓完全自主的車輛駛上街道還需要一段時間。技術(shù)和產(chǎn)業(yè)發(fā)展永遠(yuǎn)都是漸進(jìn)式的,一步一步這些技術(shù)必須足夠強(qiáng)大,同時滿足ISO 26262等一系列汽車行業(yè)的安全標(biāo)準(zhǔn)。
目前,包括Waymo在內(nèi)的多家自動駕駛領(lǐng)域的頭部企業(yè)都在加快L4級無人駕駛的商業(yè)化落地,但前提是目前僅僅是各國的交通主管部門或者政策制定者提供了一個相對寬松的“鼓勵政策”。
但量產(chǎn),意味著技術(shù)和產(chǎn)品的成熟,供應(yīng)鏈的成本下降到大規(guī)模應(yīng)用的甜蜜點。這仍然需要行業(yè)在技術(shù)上的突破。
SAE的J3016標(biāo)準(zhǔn)確定了從“非自動化”到“完全自動化”的六個駕駛自動化級別(0級到5級)。自2010以來,駕駛輔助功能(ADAS),如ACC(自動巡航控制),LKA(車道保持輔助),LCA(車道變換輔助)或CTA(交叉交通警報)等已經(jīng)出現(xiàn)了越來越多的量產(chǎn)車型上。
在下一步(從2019年到2020年),這些系統(tǒng)被進(jìn)一步集成以實現(xiàn)諸如AEB(自動緊急制動)或TJA(交通堵塞輔助)等功能,目前這幾項功能在2019年上市車型中已經(jīng)出現(xiàn)滲透率不斷上升的趨勢。
而L3級公路自動駕駛?cè)匀恍枰{駛員負(fù)責(zé),并且必須能夠在短時間內(nèi)進(jìn)行干預(yù),這對于量產(chǎn)車而言仍然具備一定的難度。目前也僅有少數(shù)幾款車型在嘗試提供給消費(fèi)者使用,但成熟度仍然存在挑戰(zhàn)。
技術(shù)和市場的進(jìn)步幾乎總是遵循相似的模式。最初,一種新技術(shù)作為一種創(chuàng)新出現(xiàn),使新的應(yīng)用成為可能。這通常與客戶方面的高期望相關(guān),與技術(shù)的成熟度水平形成鮮明對比。
ADAS和AD技術(shù)正是遵循這一曲線,基于現(xiàn)有的控制技術(shù)(例如,轉(zhuǎn)向控制、驅(qū)動控制)、GPS和HMI技術(shù),用于L1級應(yīng)用的傳感器技術(shù)(雷達(dá)、超聲波、攝像頭等)是多年前開發(fā)的。
這些應(yīng)用已經(jīng)達(dá)到了量產(chǎn)成熟度,汽車制造商現(xiàn)在可以付出更低的成本獲得更多智能的攝像頭和高性能的毫米波雷達(dá)(ABCD的新一代雷達(dá)大多是在今年底到明年真正量產(chǎn))——所以,它們現(xiàn)在具有最高的增長率。
從2019年開始,具有L3級應(yīng)用的車輛將可用于批量生產(chǎn),但L4級和5級是目前討論最多的,可是技術(shù)的成熟度仍然很低,尤其是深層神經(jīng)網(wǎng)絡(luò)(DNN/CNN)被認(rèn)為是L4級最有前景的應(yīng)用和補(bǔ)充,但其效用仍需在測試中去得到證實。
迄今為止,汽車行業(yè)仍然大部分在沿用傳統(tǒng)的視覺及數(shù)據(jù)計算方法。不同的傳感器,例如攝像頭或雷達(dá),由傳感器層使用硬件加速器單獨(dú)計算并創(chuàng)建單獨(dú)的對象列表。
融合層創(chuàng)建一個360°環(huán)境模型,然后將此模型處理到抽象層,其中運(yùn)行諸如自由空間檢測或碰撞時間之類的函數(shù),以確定驅(qū)動策略的關(guān)鍵參數(shù)。
下面的應(yīng)用層使用這些參數(shù)來執(zhí)行路徑或運(yùn)動規(guī)劃,并為制動層生成命令。這種傳統(tǒng)的方法可以用來實現(xiàn)NCAP應(yīng)用程序和自動化級別達(dá)到L3級。
而目前,基于深層學(xué)習(xí)(DL)的算法是對上述傳統(tǒng)計算路徑的冗余。DL可以執(zhí)行諸如語義分割、重新映射(如SLAM:同時定位和映射)、數(shù)據(jù)提取和驅(qū)動策略的確定之類的任務(wù)。
有兩種可能的方法:無監(jiān)督的DL(端到端)和有監(jiān)督的DL。DL層控制車輛并向駕駛員提供允許在交通中進(jìn)行更復(fù)雜操作的功能,盡管保留了傳統(tǒng)的CV方法來監(jiān)視來自DL層的決策。
自2011年以來,DL方法在基于圖像的分類精度方面明顯優(yōu)于傳統(tǒng)的CV方法,特別是使用DNNs和卷積神經(jīng)網(wǎng)絡(luò)(CNNs)。
我們從全球著名的數(shù)據(jù)測試集KittiVision的基準(zhǔn)測試可以看到一些端倪。KITTI數(shù)據(jù)集由德國卡爾斯魯厄理工學(xué)院和豐田美國技術(shù)研究院聯(lián)合創(chuàng)辦,是目前國際上最大的計算機(jī)視覺算法評測數(shù)據(jù)集之一。
數(shù)據(jù)集用于評測立體匹配(stereo)、光流(flow)、場景流(sceneflow)、視覺里程計(visual odometry)、物體檢測(object detection)和跟蹤(tracking)、道路分割(road)、語義分割(semantics)等計算機(jī)視覺技術(shù)的性能。KITTI包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實圖像數(shù)據(jù),每張圖像中最多包含15輛車和30個行人,且存在不同程度的遮擋與截斷。
KITTI道路檢測基準(zhǔn):前20種算法中的80%基于CNN;汽車立體視覺基準(zhǔn):前20種算法中有一半是基于CNN;但汽車光流(在圖像中發(fā)現(xiàn)移動物體)檢測基準(zhǔn):前20種算法中的80%到90%仍然使用傳統(tǒng)的CV方法。
從中可以看出,短期內(nèi)仍是傳統(tǒng)CV與CNN的融合效率更高。兩種方式目前來看各有利弊,更關(guān)鍵的是現(xiàn)在的成熟量產(chǎn)芯片架構(gòu)(車規(guī)級、低功耗、高性能)決定了量產(chǎn)方案的選擇。
CNNs有四個關(guān)鍵點:準(zhǔn)確性、網(wǎng)絡(luò)拓?fù)?、?shù)據(jù)類型和數(shù)據(jù)層的大小。這些因素直接影響推理部分,這是實際的硬件加速器。這種硬件加速器的特征還包括四個參數(shù):性能、功耗、內(nèi)存帶寬,當(dāng)然還有成本。
在當(dāng)前最先進(jìn)的神經(jīng)網(wǎng)絡(luò)設(shè)計中,有兩條主要途徑是向前發(fā)展:通過提高性能MAC(Multiply Accumulate)來提高精度,或者在相同的精度水平上降低性能。作為一個經(jīng)驗法則:為了提高精度5%,性能必須增加10倍。
減輕性能提高的另一個主要研究領(lǐng)域是通過采用整數(shù)或甚至位表示來折衷數(shù)據(jù)類型。數(shù)據(jù)類型約簡的適用性很大程度上取決于要解決的問題。
然而,目前的技術(shù)狀態(tài)顯示16位固定點相對于32位浮點具有1%的精度損失。從推理層的能量概念來看,有兩個因素尤其不利:內(nèi)存訪問和浮點計算。
對DRAM的32位讀訪問將消耗640 PJ(Piojoule),而SRAM訪問需要5 PJ。32位浮點乘法消耗3.7個PJ,而8位整數(shù)乘法僅需要0.2個PJ。
為了實現(xiàn)嵌入式系統(tǒng)的最低可能功耗,推理引擎將專門進(jìn)行整數(shù)計算(16位,可能考慮更高的精度損失,8位)和無內(nèi)存架構(gòu)(最小化對DDR和本地SRAM的訪問)。
傳統(tǒng)的計算體系結(jié)構(gòu),如CPU和GPU,利用其高性能和高靈活性,是目前CNN學(xué)習(xí)和推理的主流。然而,這些措施并不是有效的,尤其是從電力消耗的角度來看。
對于5x5卷積濾波器,總共需要50個讀(數(shù)據(jù)和操作數(shù))、25個MAC和一個回寫。這意味著每個MAC需要三個指令,其中指令效率僅為30%左右。
從能量的角度來看,這導(dǎo)致浮點計算大約425pj,其中60%是由于實際的浮點MAC操作——考慮到數(shù)據(jù)在本地緩存中。移動到16位不動點整數(shù),能量消耗下降到276pJ,并且這其中只有10%是由于實際的MAC操作。結(jié)果,與傳統(tǒng)的CPU/GPU架構(gòu)相比,優(yōu)化的CNN架構(gòu)可以提供20倍的性能改進(jìn)。
此外,未來的需求將需要更高的性能。如上所述,如果精度需要提高5%,那么CNN的性能必須提高10倍。
傳感器和輸入層的數(shù)量也增加了。今天的1兆像素(MP)傳感器將被多個MP傳感器(8×2MP或4×4MP)所取代。換句話說,性能應(yīng)該增加10倍的倍數(shù)。
現(xiàn)在,可以預(yù)見,2019年將需要4TOPS(每秒Tera操作)的性能;2022年,要達(dá)到40TOPS或更多,換句話說:必須增加倍數(shù)為10的因子。
按照傳統(tǒng)的CPU/GPU體系結(jié)構(gòu),最好的結(jié)果是在2年內(nèi)性能提升2倍,同時將功耗保持在較低的水平,這需要整個通用芯片架構(gòu)的變革。
而現(xiàn)有的處理器架構(gòu)只能通過更高的功耗(50W及以上)來實現(xiàn)。(英偉達(dá)DRIVE AGX Xavier是在30 TOPS,30W功耗,預(yù)計量產(chǎn)時間是在2020年,滿足L4級自動駕駛。)
在目前的計算體系結(jié)構(gòu)中,需要通過提供更專用的硬件IP來保持在可控區(qū)域中的嵌入式功率。這將不像CPU/GPU那樣靈活,但是允許更高的計算效率。
一直以來,包括NXP、瑞薩等傳統(tǒng)汽車半導(dǎo)體廠商,都是通過DL硬件加速,集成基于現(xiàn)有算法的專用硬件IP來實現(xiàn)最佳性能/功率效率。這些IP使得CNN的高性能、低功耗的實現(xiàn)成為可能。
-
CV
+關(guān)注
關(guān)注
0文章
53瀏覽量
16873 -
自動駕駛
+關(guān)注
關(guān)注
784文章
13826瀏覽量
166502 -
cnn
+關(guān)注
關(guān)注
3文章
352瀏覽量
22231
原文標(biāo)題:自動駕駛量產(chǎn)路徑,從傳統(tǒng)CV到CNN | GGAI視角
文章出處:【微信號:ilove-ev,微信公眾號:高工智能汽車】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論