在MIT - AVT研究中,最先進的嵌入式系統(tǒng)編程、軟件工程、數(shù)據(jù)處理、分布式計算、計算機視覺和深度學(xué)習(xí)技術(shù)被應(yīng)用于大規(guī)模自然駕駛數(shù)據(jù)的收集和分析,旨在為深入了解快速變化的交通系統(tǒng)中人類和自動駕駛車輛是如何進行相互作用的,從而開辟新的領(lǐng)域。這項研究提出了MIT-AVT研究背后的方法論,旨在定義和啟發(fā)下一代自動駕駛研究。
MIT - AVT 研究者認為,當(dāng)前現(xiàn)實世界的挑戰(zhàn)是人類作為自動駕駛系統(tǒng)各個方面的組成部分。這一挑戰(zhàn)之所以特別困難,是因為駕駛?cè)蝿?wù)具有巨大變異性,原因如下:
人類行為的潛在不確定性,表現(xiàn)為車輛、行人和騎自行車者之間的各種社會互動和沖突解決。
駕駛員風(fēng)格、經(jīng)驗和其他有助于理解、信任和使用自動化的特性之間的可變性。
場景感知和理解問題的復(fù)雜性和邊緣情況。
從駕駛員與方向盤的互動到輪胎與路面的接觸,汽車中的每一個人在與機械系統(tǒng)的交互中,控制問題的欠驅(qū)動性質(zhì)。
傳感器中預(yù)期的和未預(yù)料到的限制和缺陷。
對軟件的依賴帶來了基于軟件系統(tǒng)固有的挑戰(zhàn):bug、漏洞,以及小版本和大版本更新中不斷變化的特性集。
當(dāng)系統(tǒng)故障需要人工控制車輛以解決潛在的危險情況時,人類駕駛員需要識別、確認并做好控制和適應(yīng)的準(zhǔn)備。
環(huán)境條件(即天氣,光照條件)對低級感知和控制任務(wù)以及參與交互的人員之間的高級互動動態(tài)產(chǎn)生重大影響。
社會和個人對人為和機器錯誤的容忍度。
作為人類,我們自然認為,從機器人學(xué)的角度來看,成功獲得足夠的態(tài)勢感知和理解,需要多少智力,才能在一個充斥著不可預(yù)測的非理性人類的世界中航行。道路上的大多數(shù)汽車可能需要幾十年才能實現(xiàn)完全自動駕駛。在此期間,無論是作為司機還是作為駕駛人工智能系統(tǒng)的主管,人類可能仍然是關(guān)鍵的決策者,。
在這種背景下,以人為中心的人工智能( HCAI )是計算機科學(xué)、機器人學(xué)和體驗設(shè)計的一個領(lǐng)域,旨在實現(xiàn)人類和人工智能之間的更深層次整合。很可能HCAI將在技術(shù)(算法、傳感器、接口和交互范例)的形成中發(fā)揮關(guān)鍵作用,這些技術(shù)支持駕駛員在監(jiān)控AI系統(tǒng)中的角色,因為它在任何地方都執(zhí)行基本駕駛和高階物體和事件檢測任務(wù)。
麻省理工學(xué)院的自動駕駛車輛技術(shù)( MIT - AVT )研究旨在收集和分析大規(guī)模半自主駕駛的自然數(shù)據(jù),以便更好地描述當(dāng)前技術(shù)使用的狀態(tài),了解自動化技術(shù)如何影響各種環(huán)境中的人機交互,并了解我們?nèi)绾卧O(shè)計共享自主系統(tǒng),在未來幾十年里,當(dāng)我們從手動控制過渡到完全自動駕駛時,這些系統(tǒng)可以挽救生命。這項努力的動機是需要更好地描述和理解駕駛員如何使用先進的車輛技術(shù)[ 9 ]。目標(biāo)是提出、設(shè)計和構(gòu)建基于這種理解的系統(tǒng),這樣人類和車輛AI之間的共享自主不會導(dǎo)致一系列意想不到的后果[ 10 ]。
“自然駕駛”是指不受嚴(yán)格實驗設(shè)計限制的駕駛,而“自然駕駛研究”( NDS )通常是一種系統(tǒng)收集視頻、音頻、車輛遙測數(shù)據(jù)和其他傳感器數(shù)據(jù)的研究,這些數(shù)據(jù)可以長時間捕捉駕駛的各個方面,從幾天到幾個月甚至幾年不等。在這些研究中,數(shù)據(jù)是在與駕駛員通?!霸谝巴狻瘪{駛的自然條件緊密一致的條件下獲取的。“通常情況下,司機自己的車輛裝有儀表(盡可能不引人注目),每個司機都被要求像平時一樣繼續(xù)使用他們的車輛,數(shù)據(jù)就在車輛整個使用期間收集了。此外,使用不受任何結(jié)構(gòu)化實驗設(shè)計的限制。目的是提供盡可能不受測量過程影響的自然行為記錄。這與在類似儀表化車輛中進行的道路試驗形成對比,但是試驗者在車輛中,并要求駕駛員在特定時間使用車輛中的特定技術(shù)系統(tǒng)在特定道路上執(zhí)行特定任務(wù)。
MIT- AVT研究的是新一代的NDS,旨在發(fā)現(xiàn)人類駕駛員和自動駕駛技術(shù)之間真實互動的情況。目標(biāo)是從通過該項目收集的大規(guī)模自然數(shù)據(jù)中獲得洞察力,以幫助設(shè)計、開發(fā)和交付新的車輛系統(tǒng),告知保險提供商不斷變化的安全市場,并教育政府和其他非政府利益相關(guān)者如何在野外使用自動化。
圖1 :整個MIT - AVT研究和研究中各個車輛的數(shù)據(jù)集統(tǒng)計。
圖1顯示了MIT - AVT研究整體以及研究中各個車輛的關(guān)鍵統(tǒng)計數(shù)據(jù)。數(shù)據(jù)的關(guān)鍵措施及其解釋如下:
迄今研究月數(shù): 21
(這項研究在道路上與車輛一起積極運行的月數(shù)。)
參與日: 7146
(研究中所有車輛上活動數(shù)據(jù)記錄器記錄的天數(shù)。)
司機: 78人
(本研究中所有車輛上同意駕駛的司機人數(shù)。)
車輛:25
(研究中的車輛數(shù)量。)
行駛里程:275589
(行駛里程)
視頻幀數(shù):35億
(研究中所有攝像頭和車輛記錄和處理的視頻幀數(shù)。)
A.自然駕駛研究
MIT- AVT研究的重點是收集自然駕駛數(shù)據(jù),并借鑒先前NDS研究的工作和經(jīng)驗教訓(xùn),這些先前的研究旨在了解以突然減速為標(biāo)志的碰撞和近碰撞時刻前后的人類行為。第二個戰(zhàn)略性公路研究計劃( SHR p2 )是這些研究中最廣為人知和規(guī)模最大的[ 14 ]。與SHRP - 2和其他第一代NDS努力不同,MIT - AVT研究旨在成為下一代NDS項目的標(biāo)準(zhǔn),該項目的重點是基于大規(guī)模計算機視覺的人類行為分析。正如先前的研究所做的那樣,手動標(biāo)注特定的駕駛時代已經(jīng)不足以理解自主車輛技術(shù)背景下人類行為的復(fù)雜性(即駕駛員掃視或駕駛儀使用數(shù)千英里的身體位置)。
例如,對理解駕駛員行為很重要的許多度量之一是[18] (見Xi - C )的掃視區(qū)域[17]的瞬間檢測。為了在不使用計算機視覺的情況下從11億幀面部視頻中準(zhǔn)確提取這一指標(biāo),需要投資183.3萬美元的人工注釋[ 19 ]。這個數(shù)字假設(shè)有一個高效的標(biāo)注工具,專門為手動瀏覽區(qū)域標(biāo)注任務(wù)設(shè)計,可以利用標(biāo)注任務(wù)的分布式、在線、眾包。這種工具的開發(fā)是一項技術(shù)挑戰(zhàn),可能需要幾年的持續(xù)研究和開發(fā)[ 20 ],這可能會超過人類注釋時間的成本。另一個例子是驅(qū)動場景分割,對于11億幀來說,這將需要165億美元的不可思議的投資,[ 21],[ 19 ]。因此,從原始視頻中自動或半自動提取信息至關(guān)重要,是MIT - AVT的動機、設(shè)計、研究和運營的核心。
MIT對待NDS方法的基本信念是,只有通過查看全部數(shù)據(jù)(具有揭示人類行為和情況特征的算法),我們才能開始學(xué)習(xí)“放大”哪些部分:哪些觸發(fā)器和標(biāo)記將導(dǎo)致分析這些分析代表數(shù)據(jù)中的系統(tǒng)性能和人類行為。此外,從數(shù)據(jù)中提取的每一個新見解都可能會完全改變我們對數(shù)據(jù)中應(yīng)該查找的位置的理解。出于這個原因,我們相信理解人類和自主交通工具是如何相互作用的,需要比特定事件周圍幾秒甚至幾分鐘的時間窗口大得多。
它需要查看整個行程和人類參與自動化的策略:何時、何地、多長時間打開,何時、何地關(guān)閉,何時交換控制,以及許多其他問題。處理如此龐大的數(shù)據(jù)量需要一種完全不同的數(shù)據(jù)分析方法。我們通過使用基于深度學(xué)習(xí)的計算機視覺方法來實現(xiàn)知識提取過程的自動化方面,這些方法用于駕駛員狀態(tài)檢測、駕駛員身體姿態(tài)估計、駕駛場景分割和來自儀表組視頻的車輛狀態(tài)檢測,如圖2所示,并在xIV中討論。使用基于深度學(xué)習(xí)的自動注釋的結(jié)果是,MIT - AVT可以分析共享自主環(huán)境下駕駛的長尾,這反過來又允許將復(fù)雜的觀察到的交互與人類對其體驗的感知相結(jié)合。這種對NDS數(shù)據(jù)集進行整體分析的創(chuàng)新跨學(xué)科方法提供了一個獨特的機會來評估在自動駕駛環(huán)境下對人機交互的情況理解。
圖2 :來自MIT - AVT攝像機的視頻幀和為每個攝像機執(zhí)行的計算機視覺任務(wù)的可視化(a)(b)(c)(d):
( a )駕駛員狀態(tài)下的面部攝像頭。
( b )用于駕駛員身體位置的駕駛室攝像機。
( c )用于駕駛場景感知的前向攝像機。
( d )用于車輛狀態(tài)組合儀表攝像機。
B.深度學(xué)習(xí)應(yīng)用的數(shù)據(jù)集
深度學(xué)習(xí)[27]可以通過兩種方式定義:(1)機器學(xué)習(xí)的一個分支,它使用具有許多層的神經(jīng)網(wǎng)絡(luò);或(2)機器學(xué)習(xí)的一個分支,旨在形成數(shù)據(jù)表示的層次結(jié)構(gòu),而最小的輸入來自人類對層次結(jié)構(gòu)的實際構(gòu)成。后一個定義揭示了深度學(xué)習(xí)的關(guān)鍵特征,這對我們的工作非常重要,能夠使用大規(guī)模數(shù)據(jù)對機器學(xué)習(xí)的任何野外應(yīng)用中出現(xiàn)的真實世界邊緣情況進行有力的概括:遮擋、光照、視角、尺度、類間變化、類內(nèi)變化等[28]。
為了利用深度學(xué)習(xí)的力量從原始視頻中提取人類行為,需要大規(guī)模注釋數(shù)據(jù)集。然后,在這些數(shù)據(jù)集上訓(xùn)練的深層神經(jīng)網(wǎng)絡(luò)可以用于它們的學(xué)習(xí)表示,從而可針對駕駛環(huán)境中的特定應(yīng)用進行微調(diào)。ImageNet [ 29 ]是基于WordNet [ 30 ]的圖像數(shù)據(jù)集,其中100,000個同義詞集各自定義了一個獨特的概念。ImageNet的目標(biāo)是為100,000個合集中的每一個都提供1000個帶注釋的圖像。目前,它有21,841個帶有圖像的合集,總共有14,197,122個圖像。這個數(shù)據(jù)集通常用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),用于圖像分類和物體檢測任務(wù)[ 31 ]。作為年度ImageNet大規(guī)模視覺識別競賽( ILSVRC ) [32]的一部分,最佳表現(xiàn)的網(wǎng)絡(luò)被突出顯示。在這項工作中,術(shù)語“機器學(xué)習(xí)”、“深度學(xué)習(xí)”、“神經(jīng)網(wǎng)絡(luò)”和“計算機視覺”經(jīng)常互換使用。這是因為大多數(shù)自動化知識提取任務(wù)的當(dāng)前技術(shù)水平主要是基于學(xué)習(xí)的方法,這些方法依賴于深層神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)的許多變體之一。在開發(fā)用于大規(guī)模分析我們數(shù)據(jù)集中駕駛員行為的算法時使用的其他流行數(shù)據(jù)集的例子包括:
COCO [ 33 ] :Microsoft Common object in Context ( COCO )數(shù)據(jù)集是一個大規(guī)模數(shù)據(jù)集,從兩個角度解決場景理解中的對象檢測任務(wù):檢測對象的非圖標(biāo)視圖和對象的精確2D定位。第一項任務(wù)通常是指對象定位,它使用邊界框來表示對象的存在。第二項任務(wù)涉及實例分割,為此也需要對象的精確遮罩。整個數(shù)據(jù)集包含80個對象類別中標(biāo)記的200,000多幅圖像。成功的方法[ 31]、[ 34、[ 35 ]將兩項任務(wù)聯(lián)合建模,同時輸出對象的邊界框和遮罩。
KITTI:KITTI駕駛數(shù)據(jù)集開發(fā)了立體視覺、光流、視覺里程計/ SLAM和3D物體檢測的挑戰(zhàn)性基準(zhǔn),這些基準(zhǔn)是在德國中等城市卡爾斯魯厄的農(nóng)村地區(qū)和高速公路上駕駛時捕獲的。總的來說,使用各種傳感器模式,如高分辨率彩色和灰度立體相機、Velodyne 3D激光掃描儀和高精度GPS / IMU慣性導(dǎo)航系統(tǒng),在10 - 100 Hz下記錄了6小時的交通場景。此外,[ 38 ]還通過從原始數(shù)據(jù)集中收集400個高度動態(tài)的場景,并用半密集的場景流地面真實來增強這些場景,為3D場景流估計提出地面真實。
Cityscapes:Cityscapes數(shù)據(jù)集側(cè)重于對城市街景的語義理解。它提供了大量不同的立體視頻序列,這些視頻序列記錄在來自50個不同城市的街道上,具有像素級和實例級語義標(biāo)簽。有5,000個帶有像素級注釋的完全分割圖像和另外20,000個具有粗略注釋的部分分割圖像。它的兩個基準(zhǔn)挑戰(zhàn)導(dǎo)致了許多成功的語義分割方法的發(fā)展[40],[41]和實例分割[34],[42]。
CamVid:劍橋駕駛標(biāo)簽視頻數(shù)據(jù)庫(CamVid)是第一個在駕駛汽車視角下拍攝的視頻中具有逐幀語義標(biāo)簽的數(shù)據(jù)集。數(shù)據(jù)集提供地面實況標(biāo)簽,將每個像素與32個語義類之一相關(guān)聯(lián)。超過700個圖像的手動指定的每像素語義分割使得能夠研究諸如行人檢測[44]和標(biāo)簽傳播[45]之類的主題。
C.深度學(xué)習(xí)的汽車應(yīng)用
駕駛領(lǐng)域中的感知和控制系統(tǒng)的設(shè)計已經(jīng)從利用大規(guī)模數(shù)據(jù)收集和注釋的基于學(xué)習(xí)的方法中獲益,以便構(gòu)建概括于現(xiàn)實世界操作的邊緣情況的模型。利用發(fā)布的大規(guī)模注釋駕駛數(shù)據(jù)集[36],[39],汽車深度學(xué)習(xí)研究旨在解決檢測、估計、預(yù)測、標(biāo)記、生成、控制和計劃任務(wù)。如圖2所示,具體任務(wù)有已經(jīng)定義了諸如細粒度人臉識別,身體姿勢估計,語義場景感知和駕駛狀態(tài)預(yù)測。目前的努力簡要總結(jié)如下:
精細人臉識別:除了經(jīng)典人臉識別研究之外,精細人臉識別側(cè)重于理解人類對人臉感知的行為,如面部表情識別[46]、[47]、眼睛注視檢測[48]、[49]。在駕駛環(huán)境中,[50],[51]探索司機眼神的預(yù)測能力。[ 52 ],[ 53 ]用面部表情來檢測駕駛安全和駕駛體驗的情緒壓力。
人體姿勢估計:人體姿勢的研究擴展了機器人和動作識別中許多現(xiàn)實世界應(yīng)用的性能、能力和經(jīng)驗。成功的方法不同于使用深度圖像( [54],通過深度神經(jīng)網(wǎng)絡(luò)[55],或者卷積網(wǎng)絡(luò)和圖形模型[56]。特別是對于駕駛,[ 57 ]使用駕駛員姿勢來模擬人類駕駛行為,該姿勢由骨骼數(shù)據(jù)表示,包括手腕、肘部和肩關(guān)節(jié)的位置。[ 58 ]對眼睛狀態(tài)和頭部姿勢進行視覺分析,以監(jiān)控駕駛員的警覺性。
語義場景感知:從2D圖像中理解場景一直是計算機視覺中一項具有挑戰(zhàn)性的任務(wù),通常指的是語義圖像分割。通過利用大規(guī)模數(shù)據(jù)集,如[59]、[39]、[40]、[ 41]等,利用強大的深度學(xué)習(xí)技術(shù)獲得了最新的結(jié)果。因此,學(xué)術(shù)界和工業(yè)界都在積極研究自動駕駛汽車的精確駕駛場景感知[60]、[61]。
駕駛狀態(tài)預(yù)測:車輛狀態(tài)通常被認為是人類駕駛決策的直接例證,這也是自主駕駛的目標(biāo)。就機器學(xué)習(xí)而言,從不同角度來看,它是各種任務(wù)的基本真理,如駕駛行為[ 57 ]和轉(zhuǎn)向指令[ 60]、[ 61]。
隨著用于這些任務(wù)的代表性數(shù)據(jù)集被發(fā)布給廣泛的研究團體,駕駛員輔助、駕駛員體驗和車輛性能的許多方面正越來越多地通過基于學(xué)習(xí)的方法實現(xiàn)自動化。MIT-AVT研究旨在成為許多此類數(shù)據(jù)集的來源,這些數(shù)據(jù)集有助于訓(xùn)練神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu),為半自主和完全自主駕駛的許多模塊化和集成子任務(wù)提供當(dāng)前和未來的穩(wěn)健解決方案。
-
計算機視覺
+關(guān)注
關(guān)注
8文章
1699瀏覽量
46050 -
自動駕駛
+關(guān)注
關(guān)注
784文章
13896瀏覽量
166690 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5510瀏覽量
121334
原文標(biāo)題:MIT自動駕駛汽車技術(shù)研究:基于大規(guī)模深度學(xué)習(xí)的駕駛員行為分析及與自動化的互動(一)
文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論