在過去的十年里,自動(dòng)駕駛汽車技術(shù)取得了越來越快的進(jìn)步,主要得益于深度學(xué)習(xí)和人工智能領(lǐng)域的進(jìn)步。作者就自動(dòng)駕駛中使用的深度學(xué)習(xí)技術(shù)的現(xiàn)狀以及基于人工智能的自驅(qū)動(dòng)結(jié)構(gòu)、卷積和遞歸神經(jīng)網(wǎng)絡(luò)、深度強(qiáng)化學(xué)習(xí)范式進(jìn)行了詳細(xì)的闡述。并對(duì)這些方法在自動(dòng)駕駛場(chǎng)景感知、路徑規(guī)劃、行為仲裁和運(yùn)動(dòng)控制算法進(jìn)行綜述,同時(shí)就目前自動(dòng)駕駛設(shè)計(jì)中使用人工智能體系結(jié)構(gòu)所遇到的挑戰(zhàn),如安全性、訓(xùn)練數(shù)據(jù)源和計(jì)算硬件進(jìn)行了詳細(xì)的闡述,本文將從以下腦圖結(jié)構(gòu)內(nèi)容展開。
圖-1 目錄結(jié)構(gòu)
1.簡(jiǎn)介
深度學(xué)習(xí)和人工智能成為計(jì)算機(jī)視覺、機(jī)器人和自然語言處理(NLP)等領(lǐng)域取得重大突破的主要技術(shù)。它們?cè)诋?dāng)今學(xué)術(shù)界和工業(yè)界也產(chǎn)生了重大影響。自動(dòng)駕駛汽車開始從實(shí)驗(yàn)室開發(fā)和測(cè)試條件轉(zhuǎn)向在公共道路上駕駛。它的部署將減少了道路事故和交通擁堵,并改善了我們?cè)趽頂D城市中的流動(dòng)性。“自動(dòng)駕駛”的名稱似乎不言而喻,但實(shí)際上有五個(gè)SAE級(jí)別用于定義自動(dòng)駕駛。SAE J3016標(biāo)準(zhǔn)(SAE委員會(huì),2014年)引入了一個(gè)從0到5的汽車自動(dòng)化分級(jí)標(biāo)準(zhǔn)。較低的SAE級(jí)別具有基本的駕駛員輔助功能,而較高的SAE級(jí)別則向無需任何人工交互的車輛移動(dòng)。5級(jí)車不需要人工輸入,甚至不需要方向盤或腳踏板。盡管大多數(shù)駕駛場(chǎng)景可以用經(jīng)典的感知、路徑規(guī)劃和運(yùn)動(dòng)控制方法相對(duì)簡(jiǎn)單地解決,但剩余的未解決場(chǎng)景是傳統(tǒng)方法失敗的案例。
上世紀(jì)80年代,恩斯特·迪克曼開發(fā)了第一批自動(dòng)汽車,這為Prometheus等旨在開發(fā)全功能自主汽車的新研究項(xiàng)目鋪平了道路。1994年,這輛無人駕駛汽車成功地行駛了1600公里,其中95%是自主駕駛的。同樣,在1995年,CMU Navlab演示了6000公里的自主駕駛,98%的人是自主駕駛的。自主駕駛的另一個(gè)重要里程碑是2004年和2005年的DARPA大挑戰(zhàn)賽,以及2007年的DARPA城市挑戰(zhàn)賽。目標(biāo)是讓無人駕駛汽車在沒有人為干預(yù)的情況下,盡可能快地駛過一條越野路線。2004年,15輛車都沒有完成比賽。斯坦利等人利用機(jī)器學(xué)習(xí)技術(shù)在非結(jié)構(gòu)化環(huán)境中進(jìn)行了導(dǎo)航,這是自動(dòng)駕駛汽車發(fā)展的一個(gè)轉(zhuǎn)折點(diǎn),從此機(jī)器學(xué)習(xí)和人工智能在自動(dòng)駕駛的核心組成部分中開始被探索,這一轉(zhuǎn)折點(diǎn)在本調(diào)查報(bào)告中也很明顯,因?yàn)榇蠖鄶?shù)調(diào)查工作都是在2005年以后進(jìn)行的。
2.自動(dòng)駕駛系統(tǒng)
自動(dòng)駕駛是一種自主決策系統(tǒng),它處理來自不同車載來源的觀測(cè)流,如照相機(jī)、雷達(dá)、激光雷達(dá)、超聲波傳感器、GPS裝置和/或慣性傳感器。這些觀察結(jié)果被汽車的計(jì)算機(jī)用來做駕駛決定。人工智能汽車的基本框圖如圖1所示。
圖1:基于深度學(xué)習(xí)的自動(dòng)駕駛汽車。該體系結(jié)構(gòu)可以實(shí)現(xiàn)為一個(gè)順序感知規(guī)劃動(dòng)作管道(a),也可以實(shí)現(xiàn)為一個(gè)終端系統(tǒng)(b)。在順序流水線的情況下,可以使用人工智能和深度學(xué)習(xí)方法設(shè)計(jì)組件,也可以基于經(jīng)典的非學(xué)習(xí)方法設(shè)計(jì)組件。End2End學(xué)習(xí)系統(tǒng)主要基于深度學(xué)習(xí)方法。通常設(shè)計(jì)一個(gè)安全監(jiān)視器來確保每個(gè)模塊的安全。
決策是在模塊化的感知(圖1(a))中計(jì)算的,或者是在第2終端學(xué)習(xí)方式(圖1(b))中計(jì)算的,其中感知信息直接映射到控制輸出。模塊化流水線的組件可以基于人工智能和深度學(xué)習(xí)方法設(shè)計(jì),也可以使用經(jīng)典的非學(xué)習(xí)方法設(shè)計(jì)。圖1(a)中的模塊化流水線被分層分解為四個(gè)組件,可以使用深度學(xué)習(xí)和人工智能方法或經(jīng)典方法進(jìn)行設(shè)計(jì)。這些組件包括:
感知和定位、高級(jí)路徑規(guī)劃、行為仲裁或低級(jí)路徑規(guī)劃、運(yùn)動(dòng)控制器。
自動(dòng)駕駛汽車的首要任務(wù)是了解周圍環(huán)境并使其本地化。在此基礎(chǔ)上,規(guī)劃了一條連續(xù)的路徑,并通過行為仲裁系統(tǒng)確定了汽車的未來行為。最后,運(yùn)動(dòng)控制系統(tǒng)反應(yīng)性地校正在執(zhí)行所計(jì)劃的運(yùn)動(dòng)時(shí)產(chǎn)生的誤差。有關(guān)這四個(gè)組件的經(jīng)典非人工智能設(shè)計(jì)方法的回顧,請(qǐng)參見(Paden等人,2016)。接下來將介紹自動(dòng)駕駛中使用的深度學(xué)習(xí)和人工智能技術(shù),以及設(shè)計(jì)上述分層決策過程所使用的不同方法,此外該論文還概述了end2end學(xué)習(xí)系統(tǒng)。
3.深度學(xué)習(xí)技術(shù)綜述
在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行視覺的感知是自動(dòng)駕駛系統(tǒng)中最常用的方法,本文就關(guān)鍵的深度強(qiáng)化學(xué)習(xí)進(jìn)行闡述,對(duì)最初的DQN算法進(jìn)行了一些獨(dú)立的改進(jìn)(mnih等人,2015)。DeepMind提供了一項(xiàng)關(guān)于如何將這些改進(jìn)與深度強(qiáng)化學(xué)習(xí)相結(jié)合的研究,其中名為Rainbow的組合算法能夠優(yōu)于獨(dú)立競(jìng)爭(zhēng)的方法。DeepMind(Hessel等人,2017年)提出了對(duì)DQN基礎(chǔ)的六個(gè)擴(kuò)展,每個(gè)擴(kuò)展都解決了一個(gè)明顯的問題:
雙Q學(xué)習(xí)解決了高估偏差問題,并使行動(dòng)的選擇和評(píng)估脫鉤;
從需要學(xué)習(xí)信息的數(shù)據(jù)中更頻繁地對(duì)重播樣本進(jìn)行優(yōu)先排序;
決斗網(wǎng)絡(luò)旨在提高基于價(jià)值的RL;
多步驟學(xué)習(xí)用于提高訓(xùn)練速度;
分布rl改進(jìn)了bellman方程中的目標(biāo)分布;
噪聲網(wǎng)絡(luò)提高了網(wǎng)絡(luò)忽略噪聲輸入的能力,并允許狀態(tài)條件探測(cè)。
以上所有的補(bǔ)充性改進(jìn)都在ATARI2600挑戰(zhàn)賽上進(jìn)行了測(cè)試。關(guān)于自動(dòng)駕駛車輛的一個(gè)好的實(shí)現(xiàn)應(yīng)該從所述的DQN擴(kuò)展開始??紤]到深度強(qiáng)化學(xué)習(xí)的進(jìn)展,該算法的直接應(yīng)用仍然需要一個(gè)訓(xùn)練過程,在該過程中,人們應(yīng)該模擬和建模所需的自動(dòng)駕駛汽車的行為。智能體無法直接訪問模擬的環(huán)境狀態(tài)。相反,傳感器讀數(shù)提供了關(guān)于環(huán)境真實(shí)狀態(tài)的線索。為了解真實(shí)的環(huán)境狀態(tài),僅映射傳感器讀數(shù)的一個(gè)快照是不夠的。時(shí)間信息也應(yīng)該包含在網(wǎng)絡(luò)的輸入中,因?yàn)榄h(huán)境的狀態(tài)會(huì)隨著時(shí)間而改變。對(duì)于自動(dòng)駕駛汽車,離散動(dòng)作將轉(zhuǎn)換為離散命令,例如左轉(zhuǎn)、右轉(zhuǎn)、加速或中斷。上述DQN方法已擴(kuò)展到基于策略梯度估計(jì)的連續(xù)行動(dòng)空間,它描述了一種無模型的actor-critic算法,其能夠直接從原始像素輸入中學(xué)習(xí)不同的連續(xù)控制任務(wù)。盡管使用日間行車燈進(jìn)行連續(xù)控制是可能的,但在自動(dòng)駕駛中,日間行車燈最常見的策略是基于離散控制。這里的主要挑戰(zhàn)是訓(xùn)練,因?yàn)橹悄荏w必須探索其環(huán)境
4駕駛場(chǎng)景感知與定位深度學(xué)習(xí)
4.1傳感硬件:攝像機(jī)與激光雷達(dá)之爭(zhēng)
深度學(xué)習(xí)方法特別適合于從攝像機(jī)和lidar(光探測(cè)和測(cè)距)設(shè)備獲取的2d圖像和3d點(diǎn)云中檢測(cè)和識(shí)別對(duì)象。在自動(dòng)駕駛中,三維感知主要基于激光雷達(dá)傳感器,它以三維點(diǎn)云的形式提供對(duì)周圍環(huán)境的直接三維表示。激光雷達(dá)的性能是根據(jù)視場(chǎng)、距離、分辨率和旋轉(zhuǎn)/幀速率來衡量的。3D傳感器,如Velodyne?通常具有360度水平視野。為了高速行駛,一輛自動(dòng)駕駛汽車至少需要200米的行駛距離,使汽車能夠及時(shí)對(duì)路況的變化作出反應(yīng),三維目標(biāo)檢測(cè)精度取決于傳感器的分辨率,最先進(jìn)的激光雷達(dá)能夠提供3cm的精度。攝像機(jī)則是對(duì)獲取的圖像通過深度學(xué)習(xí)方法進(jìn)行處理,其主要依賴于分辨率的高度和算法的精準(zhǔn)程度。
4.2駕駛場(chǎng)景理解
一輛自動(dòng)駕駛汽車應(yīng)該能夠檢測(cè)到交通參與者和可行駛區(qū)域,特別是在城市地區(qū),那里可能出現(xiàn)各種各樣的物體外觀和遮擋?;谏疃葘W(xué)習(xí)的感知,特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)成為目標(biāo)檢測(cè)和識(shí)別的事實(shí)標(biāo)準(zhǔn),在ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽等比賽中取得顯著成績(jī)。不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于檢測(cè)二維感興趣區(qū)域或圖像中的像素分割區(qū)域,3DLidar點(diǎn)云中的邊界盒以及組合相機(jī)Lidar數(shù)據(jù)中對(duì)象的三維表示。場(chǎng)景感知結(jié)果的示例如圖3所示。圖像數(shù)據(jù)信息豐富,更適合于目標(biāo)識(shí)別任務(wù)。然而,由于在將成像場(chǎng)景投影到成像傳感器上時(shí)丟失了深度信息,因此必須估計(jì)被檢測(cè)對(duì)象的真實(shí)3d位置。
4.2.1邊界盒型目標(biāo)探測(cè)器
圖像中最常用的二維目標(biāo)檢測(cè)結(jié)構(gòu)是單級(jí)和雙級(jí)檢測(cè)器。流行的單級(jí)探測(cè)器有“你只看一次”(Yolo)、單點(diǎn)多盒探測(cè)器(固態(tài)硬盤)。雙級(jí)檢測(cè)器,如RCNN、Faster RCNN或R-FCN,其將目標(biāo)檢測(cè)過程分為兩部分:感興趣區(qū)域候選方案和邊界框分類。一般來說,單級(jí)探測(cè)器的性能不如雙級(jí)探測(cè)器,但速度要快得多。圖4根據(jù)Pascal VOC 2012數(shù)據(jù)集和測(cè)量的平均精度(MAP)對(duì)上述目標(biāo)檢測(cè)器進(jìn)行了比較,交叉超過并集(IOU)值分別為50和75。
4.2.2語義和實(shí)例分割
駕駛場(chǎng)景的理解也可以通過語義分割來實(shí)現(xiàn),表示圖像中每個(gè)像素的分類標(biāo)記。在自動(dòng)駕駛環(huán)境中,像素可以用分類標(biāo)簽來標(biāo)記,代表可駕駛區(qū)域、行人、交通參與者、建筑物等,這是一項(xiàng)高級(jí)任務(wù)。其中Segnet、ICnet、ENET、Adapnet或Mask R-CNN等語義分割網(wǎng)絡(luò)主要是具有像素級(jí)分類層的編碼器-解碼器架構(gòu)。它們基于一些常見網(wǎng)絡(luò)拓?fù)涞臉?gòu)建塊。圖5顯示了基于城市景觀數(shù)據(jù)集的四個(gè)關(guān)鍵語義分割網(wǎng)絡(luò)的測(cè)試結(jié)果。其中每類平均交集是指多類分割,每個(gè)像素被標(biāo)記為屬于特定的對(duì)象類,而每類是指前景(對(duì)象)-背景(非對(duì)象)分割。輸入樣本的大小為480px320px。
4.2.3 定位
定位算法的目的是計(jì)算自主車輛導(dǎo)航時(shí)的姿態(tài)(位置和方向)。這可以通過GPS等系統(tǒng)來實(shí)現(xiàn),但在下面的文章中將重點(diǎn)介紹基于視覺定位的深度學(xué)習(xí)技術(shù)。視覺定位,也稱為視覺里程計(jì)(vo),通常是通過匹配連續(xù)視頻幀中的關(guān)鍵點(diǎn)標(biāo)記來確定的。給定當(dāng)前幀,這些關(guān)鍵點(diǎn)用作透視N點(diǎn)映射算法的輸入,用于計(jì)算車輛相對(duì)于前一幀的姿態(tài)。深度學(xué)習(xí)可以直接影響關(guān)鍵點(diǎn)檢測(cè)的精度,從而提高精度。此外,隨著攝像機(jī)姿態(tài)的計(jì)算,環(huán)境的結(jié)構(gòu)可以逐步映射。這些方法屬于同步定位與映射(slam)領(lǐng)域。為了安全地在駕駛現(xiàn)場(chǎng)導(dǎo)航,一輛自動(dòng)駕駛的汽車應(yīng)該能夠估計(jì)周圍環(huán)境的運(yùn)動(dòng),也稱為場(chǎng)景流。以往基于激光雷達(dá)的場(chǎng)景流估計(jì)技術(shù)主要依賴于人工設(shè)計(jì)的特征。本文注意到一種趨勢(shì),即用能夠自動(dòng)學(xué)習(xí)場(chǎng)景流的深度學(xué)習(xí)體系結(jié)構(gòu)取代這些經(jīng)典方法。在占用網(wǎng)格上訓(xùn)練編碼深度網(wǎng)絡(luò),以在連續(xù)時(shí)間步之間找到匹配或不匹配的位置。雖然在基于深度學(xué)習(xí)的定位領(lǐng)域已經(jīng)取得了很多進(jìn)展,但是該技術(shù)仍然以經(jīng)典的關(guān)鍵點(diǎn)匹配算法為主,并結(jié)合慣性傳感器提供的加速度數(shù)據(jù)。這主要是因?yàn)殛P(guān)鍵點(diǎn)檢測(cè)器計(jì)算效率高,可以很容易地部署在嵌入式設(shè)備上。
4.3使用Occupancy Maps感知
Occupancy Maps也稱為占用網(wǎng)格,它是將駕駛空間劃分為一組單元并計(jì)算每個(gè)單元的占用概率的環(huán)境表示。圖6示出了幾個(gè)Occupancy Maps數(shù)據(jù)樣本。
深度學(xué)習(xí)用于Occupancy Maps的上下文中,用于動(dòng)態(tài)對(duì)象檢測(cè)和跟蹤,車輛周圍占用圖的概率估計(jì)或用于推導(dǎo)駕駛場(chǎng)景上下文。在后一種情況下,Occupancy Maps是通過隨著時(shí)間的推移積累數(shù)據(jù)來構(gòu)建的,而深層神經(jīng)網(wǎng)絡(luò)則用于將環(huán)境標(biāo)記為駕駛上下文類,例如高速公路駕駛、停車場(chǎng)或市中心駕駛。Occupancy Maps代表一個(gè)車內(nèi)虛擬環(huán)境,以更適合路徑規(guī)劃和運(yùn)動(dòng)控制的形式集成感知信息。深度學(xué)習(xí)在估計(jì)中起著重要作用,因?yàn)橛糜谔畛渚W(wǎng)格單元的信息是從使用場(chǎng)景感知方法處理圖像和lidar數(shù)據(jù)中推斷出來的。
5.深入學(xué)習(xí)路徑規(guī)劃和行為仲裁
自動(dòng)駕駛汽車在兩個(gè)點(diǎn)(即起始位置和所需位置)之間找到路線的能力表示路徑規(guī)劃。根據(jù)路徑規(guī)劃過程,自動(dòng)駕駛汽車應(yīng)考慮周圍環(huán)境中存在的所有可能障礙物,并計(jì)算沿?zé)o碰撞路線的軌跡。一般的認(rèn)為自動(dòng)駕駛是一種多智能體設(shè)置,在這種設(shè)置中,當(dāng)車輛在超車、讓路、合流、左轉(zhuǎn)和右轉(zhuǎn)時(shí),以及在非結(jié)構(gòu)化城市道路上行駛時(shí),宿主車輛必須與其他道路使用者應(yīng)用復(fù)雜的談判技巧。文獻(xiàn)研究結(jié)果指出,一個(gè)非瑣碎的策略。本文提出的解決方案是構(gòu)造一個(gè)由可學(xué)習(xí)部分和非可學(xué)習(xí)部分組成的策略函數(shù)??蓪W(xué)習(xí)的策略試圖最大化獎(jiǎng)勵(lì)功能(包括舒適性、安全性、超車機(jī)會(huì)等)。同時(shí),不可學(xué)習(xí)策略遵循功能安全的硬約束,同時(shí)保持可接受的舒適度。用于路徑規(guī)劃的il和drl都有其優(yōu)缺點(diǎn)。然而,在拐角情況下(例如,駛離車道、車輛碰撞等),這些數(shù)據(jù)是稀缺的,使得訓(xùn)練網(wǎng)絡(luò)在遇到不可見數(shù)據(jù)時(shí)的響應(yīng)是不確定的。另一方面,盡管DRL系統(tǒng)能夠在模擬世界中探索不同的駕駛情況,但這些模型在移植到現(xiàn)實(shí)世界時(shí)往往會(huì)有偏差行為。
6.基于人工智能的自動(dòng)駕駛汽車運(yùn)動(dòng)控制器
運(yùn)動(dòng)控制器負(fù)責(zé)計(jì)算車輛的縱向和橫向轉(zhuǎn)向指令。學(xué)習(xí)算法既可以作為學(xué)習(xí)控制器的一部分,在圖1(a)的運(yùn)動(dòng)控制模塊中使用,也可以作為完整的末端控制系統(tǒng),直接將感覺數(shù)據(jù)映射到轉(zhuǎn)向命令,如圖1(b)所示。
6.1學(xué)習(xí)控制器
傳統(tǒng)的控制器利用由固定參數(shù)組成的先驗(yàn)?zāi)P?。?dāng)機(jī)器人或其他自治系統(tǒng)被用于復(fù)雜的環(huán)境,如駕駛時(shí),傳統(tǒng)的控制器無法預(yù)見系統(tǒng)必須處理的所有可能情況。與具有固定參數(shù)的控制器不同,學(xué)習(xí)控制器利用訓(xùn)練信息隨時(shí)間學(xué)習(xí)其模型。隨著每一批訓(xùn)練數(shù)據(jù)的積累,真實(shí)系統(tǒng)模型的近似變得更加精確,從而使模型靈活性、一致性、不確定性估計(jì)和預(yù)期在部署之前無法建模。在以前的工作中,學(xué)習(xí)控制器已被引入基于簡(jiǎn)單函數(shù)逼近,如高斯過程(GP)建模,或支持向量回歸。學(xué)習(xí)技術(shù)通常用于學(xué)習(xí)動(dòng)力學(xué)模型,該模型反過來改進(jìn)了迭代學(xué)習(xí)控制(ILC)中的先驗(yàn)系統(tǒng)模型和模型預(yù)測(cè)控制(MPC)。迭代學(xué)習(xí)控制(ilc)是一種控制重復(fù)工作系統(tǒng)的方法,例如自動(dòng)駕駛汽車的路徑跟蹤。它已成功應(yīng)用于越野地形的導(dǎo)航、自動(dòng)泊車和自動(dòng)賽車轉(zhuǎn)向動(dòng)力學(xué)建模。這些方法使用學(xué)習(xí)機(jī)制來識(shí)別非線性動(dòng)力學(xué),用于mpc的軌跡成本函數(shù)優(yōu)化,其使得人們能夠更好地預(yù)測(cè)干擾和車輛的行為,從而獲得應(yīng)用于控制輸入的最佳舒適性和安全性約束。此外,學(xué)習(xí)控制器的一個(gè)主要優(yōu)點(diǎn)是,它能將傳統(tǒng)的基于模型的控制理論與學(xué)習(xí)算法最佳地結(jié)合起來。這使得仍然可以使用已建立的控制器設(shè)計(jì)和穩(wěn)定性分析方法,以及應(yīng)用于系統(tǒng)辨識(shí)和預(yù)測(cè)級(jí)別的魯棒學(xué)習(xí)組件。
6.2終端學(xué)習(xí)控制
在自主駕駛的背景下,末端學(xué)習(xí)控制被定義為從感覺數(shù)據(jù)到控制命令的直接映射。輸入通常來自高維特征空間(如圖像或點(diǎn)云)。如圖1(b)所示,這與傳統(tǒng)的處理過程相反,在傳統(tǒng)的處理過程中,首先在輸入圖像中檢測(cè)對(duì)象,然后規(guī)劃路徑,最后執(zhí)行計(jì)算出的控制值。表1總結(jié)了一些最受歡迎的End2End學(xué)習(xí)系統(tǒng)。
end2end學(xué)習(xí)也可以表示為一種擴(kuò)展到復(fù)雜模型的反向傳播算法。這種模式最早出現(xiàn)在20世紀(jì)90年代,當(dāng)時(shí)在一個(gè)神經(jīng)網(wǎng)絡(luò)系統(tǒng)中建立了自主陸地車輛。在過去的幾年里,計(jì)算機(jī)硬件的技術(shù)進(jìn)步促進(jìn)了end2end學(xué)習(xí)模型的使用。在并行圖形處理單元(gpu)上實(shí)現(xiàn)了深度網(wǎng)絡(luò)中梯度估計(jì)的反向傳播算法。這種處理允許訓(xùn)練大型和復(fù)雜的網(wǎng)絡(luò)體系結(jié)構(gòu),而這又需要大量的訓(xùn)練樣本。End2End控制文件主要使用在現(xiàn)實(shí)世界和/或合成數(shù)據(jù)上離線訓(xùn)練的深層神經(jīng)網(wǎng)絡(luò)或在模擬中訓(xùn)練和評(píng)估的深度強(qiáng)化學(xué)習(xí)(DRL)系統(tǒng)。Nvidia?在過去幾年中推廣了End2End方法。方法是訓(xùn)練一個(gè)CNN,它將原始像素從一個(gè)正面攝像頭直接映射到轉(zhuǎn)向命令。訓(xùn)練數(shù)據(jù)由在不同燈光和天氣條件下以及在不同道路類型上執(zhí)行的駕駛場(chǎng)景中收集的圖像和轉(zhuǎn)向命令組成。在訓(xùn)練之前,通過增加數(shù)據(jù),在原始數(shù)據(jù)的基礎(chǔ)上增加人工移位和旋轉(zhuǎn)來豐富數(shù)據(jù)。一般的,評(píng)估分為兩個(gè)階段:第一階段是模擬,第二階段是測(cè)試車。自主性能指標(biāo)表示神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)汽車的時(shí)間百分比:
當(dāng)模擬車輛偏離中心線超過1米時(shí),假設(shè)6秒是人類重新控制車輛并將其恢復(fù)到所需狀態(tài)所需的時(shí)間,則認(rèn)為發(fā)生了干預(yù)。從Holmdel到美國(guó)新澤西州大西洋高地的20公里車程實(shí)現(xiàn)了98%的自主性,其中重點(diǎn)是確定輸入交通圖像中哪些元素對(duì)網(wǎng)絡(luò)的轉(zhuǎn)向決策影響最大。基于drl的控制的下一個(gè)趨勢(shì)似乎是包含了經(jīng)典的基于模型的控制技術(shù)。經(jīng)典控制器提供了一個(gè)穩(wěn)定的、確定性的模型,在此基礎(chǔ)上對(duì)神經(jīng)網(wǎng)絡(luò)的策略進(jìn)行了估計(jì)。這樣,模型系統(tǒng)的硬約束就轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)策略
7.自動(dòng)駕駛中的深度學(xué)習(xí)安全
自動(dòng)駕駛中的深度學(xué)習(xí)安全意味著沒有導(dǎo)致系統(tǒng)危險(xiǎn)的條件,而系統(tǒng)的安全性在很大程度上取決于技術(shù)類型和應(yīng)用程序上下文。因此,關(guān)于深度學(xué)習(xí)技術(shù)的安全性的推理需要:
? 理解可能的故障的影響;
? 理解更廣泛的系統(tǒng)中的上下文;
? 定義關(guān)于系統(tǒng)上下文和可能使用它的環(huán)境的假設(shè);
? 定義安全行為的含義,包括非功能約束。
8.用于訓(xùn)練自動(dòng)駕駛系統(tǒng)的數(shù)據(jù)源
不可否認(rèn),使用真實(shí)世界的數(shù)據(jù)是訓(xùn)練和測(cè)試自動(dòng)駕駛組件的關(guān)鍵要求。這些組成部分的發(fā)展階段需要大量數(shù)據(jù),這使得在公共道路上收集數(shù)據(jù)成為一項(xiàng)有價(jià)值的活動(dòng)。為了獲得對(duì)駕駛場(chǎng)景的全面描述,用于數(shù)據(jù)采集的車輛配備了多種傳感器,如雷達(dá)、激光雷達(dá)、GPS、攝像機(jī)、慣性測(cè)量單元(IMU)和超聲波傳感器。傳感器設(shè)置因車輛而異,具體取決于數(shù)據(jù)的計(jì)劃使用方式。圖7中示出了用于自主車輛的公共傳感器設(shè)置。
下表是目前公開可用的最相關(guān)數(shù)據(jù)集以及相關(guān)的顯著特征。
9.計(jì)算硬件和部署
在目標(biāo)邊緣設(shè)備上部署深度學(xué)習(xí)算法并不是一項(xiàng)簡(jiǎn)單的任務(wù),在車輛方面的主要限制是價(jià)格、性能問題和功耗。因此,嵌入式平臺(tái)由于其可移植性、多功能性和節(jié)能性成為集成汽車內(nèi)人工智能算法的關(guān)鍵。Nvidia是為在自主汽車內(nèi)部署深度學(xué)習(xí)算法提供硬件解決方案的市場(chǎng)領(lǐng)導(dǎo)者。drive-px(nvidia,b)是一款人工智能汽車計(jì)算機(jī),旨在使汽車制造商能夠直接專注于自主汽車的軟件。最新版本的drivepx架構(gòu)基于兩個(gè)tegra x2(nvidia,f)片上系統(tǒng)(socs)。每個(gè)soc包含兩個(gè)denve核、4個(gè)arm a57核和一個(gè)pascal圖形計(jì)算單元(gpu)。nvidia驅(qū)動(dòng)器px能夠執(zhí)行實(shí)時(shí)環(huán)境感知、路徑規(guī)劃和定位。它結(jié)合了深度學(xué)習(xí)、傳感器融合和環(huán)繞視覺來改善駕駛體驗(yàn)。此外,現(xiàn)場(chǎng)可編程門陣列(FPGA)是另一種可行的解決方案,在深度學(xué)習(xí)應(yīng)用中,它在性能和功耗方面都有很大的提高。FPGA適用于深度學(xué)習(xí)算法,其適用性可以從四個(gè)主要方面進(jìn)行分析:效率和功率、原始計(jì)算能力、靈活性和功能安全性。此外,由微軟和Xilinx等制造商提出的研究表明,在計(jì)算復(fù)雜度相同的算法時(shí),GPU可以消耗比FPGA多十倍的功率,這表明FPGA可以更適合于汽車領(lǐng)域的深學(xué)習(xí)應(yīng)用。
評(píng)論
查看更多