本文旨在回顧現(xiàn)有的方法和理論,幫助理解和重新思考人類(lèi)駕駛員之間的交互,從而實(shí)現(xiàn)社會(huì)自主駕駛。這項(xiàng)綜述為了尋求一系列基本問(wèn)題的答案:
1)什么是道路交通場(chǎng)景中的社會(huì)交互?2) 如何衡量和評(píng)估社會(huì)交互?3) 如何建模和揭示社會(huì)交互過(guò)程?4) 人類(lèi)駕駛員如何在社會(huì)交互中達(dá)成隱性協(xié)議并順利協(xié)商?
本文回顧了建模和學(xué)習(xí)人類(lèi)駕駛員之間社會(huì)交互的各種方法,從優(yōu)化理論和圖模型(graphical models)到社會(huì)力理論和行為認(rèn)知科學(xué)。還強(qiáng)調(diào)了一些新的方向、關(guān)鍵挑戰(zhàn)以及未來(lái)研究的開(kāi)放性問(wèn)題。
人類(lèi)可以被訓(xùn)練成具有強(qiáng)大社會(huì)交互能力的卓越駕駛員。在現(xiàn)實(shí)世界的交通中,理性的人類(lèi)駕駛員可以通過(guò)使用非語(yǔ)言通信(如手勢(shì),向另一輛車(chē)揮手讓路)、指示語(yǔ)(如使用轉(zhuǎn)向信號(hào)燈指示意圖)等有效地與周?chē)h(huán)境協(xié)商,在復(fù)雜和擁擠的場(chǎng)景中做出與社會(huì)兼容的決策,以及運(yùn)動(dòng)線(xiàn)索(例如加速/減速/轉(zhuǎn)彎)。
理解復(fù)雜交通場(chǎng)景中人類(lèi)駕駛員之間動(dòng)態(tài)交互的原則和規(guī)則,可以 1)利用對(duì)他人行為或反應(yīng)的信念和期望,產(chǎn)生不同的社會(huì)駕駛行為;2) 預(yù)測(cè)具有移動(dòng)目標(biāo)場(chǎng)景的未來(lái)狀態(tài),對(duì)于構(gòu)建可能安全的智能車(chē)輛至關(guān)重要,其具有行為預(yù)測(cè)和潛在碰撞檢測(cè)的能力;3)創(chuàng)建逼真的駕駛模擬器。
然而,這項(xiàng)任務(wù)不簡(jiǎn)單,因?yàn)閺慕煌ㄐ睦韺W(xué)家的角度來(lái)看,在駕駛交互過(guò)程中存在各種社會(huì)因素,包括社會(huì)動(dòng)機(jī)、社會(huì)感知和社會(huì)控制。一般來(lái)說(shuō),人類(lèi)駕駛行為由人類(lèi)駕駛員的社會(huì)交互和與場(chǎng)景的物理交互所構(gòu)成。
由于人類(lèi)之間的連續(xù)閉環(huán)反饋,社會(huì)交互比物理交互更加復(fù)雜,并且存在許多不確定性。社會(huì)交互可能只需要簡(jiǎn)單的決策,直接將人類(lèi)感知映射到行動(dòng),而無(wú)需具體的推理和規(guī)劃(例如,刺激反應(yīng)、反應(yīng)性交互、跟車(chē))。社會(huì)交互也可能需要復(fù)雜的決策,通過(guò)預(yù)測(cè)其他智體的行為并評(píng)估所有可能替代方案的影響,迫使人類(lèi)駕駛員謹(jǐn)慎地決定備選方案中的行動(dòng)(例如,讓路或通過(guò))。
另一方面,人類(lèi)駕駛員可以通過(guò)顯式通信相互交流,例如使用手勢(shì)和閃光燈。然而,在實(shí)踐中,明確的溝通選項(xiàng)并不總是可用或最有效。在許多情況下,人類(lèi)駕駛員更喜歡使用隱式而非顯式通信來(lái)完成交互交通場(chǎng)景中的駕駛?cè)蝿?wù)。
從人與人之間交互到人與自動(dòng)駕駛汽車(chē)(AV)的交互
人與人之間的社會(huì)交互。人類(lèi)是自然的社會(huì)傳播者;人類(lèi)駕駛員安全高效地與其他智體進(jìn)行協(xié)商,形成一個(gè)交互密集的多智體系統(tǒng)。一般來(lái)說(shuō),人類(lèi)駕駛行為受兩類(lèi)規(guī)范的支配:法律規(guī)范和社會(huì)規(guī)范。
交通規(guī)則構(gòu)成法律規(guī)范,人類(lèi)社會(huì)因素構(gòu)成社會(huì)規(guī)范。在真實(shí)的交通中,人類(lèi)駕駛員并不總是嚴(yán)格和刻板地遵守交通法規(guī)(例如,在高速公路上保持在限速之下),這是合規(guī)的行為(即法律規(guī)范)。
相反,人類(lèi)駕駛員通常會(huì)根據(jù)隱含的社會(huì)規(guī)范和規(guī)則駕駛,促進(jìn)道路高效和安全的行為?,F(xiàn)有研究還表明,根據(jù)隨便的行為(即社會(huì)規(guī)范)行事,可以使其他人的行為變得可識(shí)別和可預(yù)測(cè),從而減少交互不確定性,促進(jìn)每個(gè)智體的決策。
因此,通過(guò)純粹的法律規(guī)范理解和推斷其他人的駕駛行為可能是無(wú)效的,因?yàn)椋?/p>
交通規(guī)則并不總是規(guī)定駕駛行為。例如,當(dāng)駕駛員打算在擁擠的交通中改變車(chē)道時(shí),交通法只禁止碰撞,但沒(méi)有具體說(shuō)明駕駛員應(yīng)如何與他人合作或競(jìng)爭(zhēng)以形成空檔。社會(huì)規(guī)范通常主導(dǎo)這種交互行為。
人工駕駛不嚴(yán)格遵守交通規(guī)則。如圖說(shuō)明了現(xiàn)實(shí)生活中經(jīng)常發(fā)生的交互場(chǎng)景。一名經(jīng)驗(yàn)豐富的駕駛員(紅色)打算通過(guò)十字路口,但其領(lǐng)路車(chē)正在等待左轉(zhuǎn)。駕駛員可以越過(guò)白色實(shí)線(xiàn)并從右側(cè)通過(guò)超車(chē),節(jié)省行駛時(shí)間。雖然這種行為稍微違反了交通規(guī)則,但卻提高了交通流效率。
因此,讓自動(dòng)駕駛汽車(chē)(AV)配備人與人之間交互的集體動(dòng)力學(xué),可以在人類(lèi)環(huán)境中做出知情和社會(huì)兼容的決策。
自動(dòng)駕駛車(chē)輛的社會(huì)行為。作為移動(dòng)智能的智體,智能車(chē)輛也需要與人類(lèi)交互,并將成為復(fù)雜社會(huì)系統(tǒng)的一部分。在這樣一個(gè)安全-緊要的系統(tǒng)中,AVs應(yīng)該無(wú)縫地融入到有人類(lèi)駕駛的道路中,并在社交上與達(dá)到人類(lèi)水平的性能兼容。然而,如圖所示,人類(lèi)駕駛員遵循的規(guī)范與自動(dòng)駕駛車(chē)輛之間存在很大差距。
嚴(yán)格遵循法律規(guī)范的自動(dòng)駕駛車(chē)輛可能無(wú)法應(yīng)對(duì)高度交互的場(chǎng)景,并搞糊涂其他遵循社會(huì)規(guī)范的人類(lèi)駕駛員。例如,在停車(chē)標(biāo)志(可被視為法律規(guī)范)向人類(lèi)傳遞令人困惑的社會(huì)線(xiàn)索之前,AV嚴(yán)格且刻板地遵循3秒法則:“為什么車(chē)輛不前進(jìn)?”為了有效溝通,AVs需要模仿或理想地改進(jìn),如人類(lèi)一般駕駛,這要求他們:
理解并適應(yīng)他人的社交和運(yùn)動(dòng)線(xiàn)索。這將AV視為信息接收器,使其在功能上安全高效。例如,如果沒(méi)有認(rèn)識(shí)到其他駕駛員的攻擊性水平,將使AV不安全或過(guò)于保守。
提供可識(shí)別、信息豐富的社交和動(dòng)作線(xiàn)索。AVs視為信息發(fā)送者,其他人類(lèi)駕駛員能夠感知和理解AVs行為,從而能夠進(jìn)行安全有效的工作。例如,在讓行和通過(guò)之間猶豫的AV會(huì)搞糊涂其他道路使用者,導(dǎo)致事故或交通堵塞。
并不是說(shuō)AVs為了表現(xiàn)得像人類(lèi)駕駛員或與社會(huì)兼容就要違反交通規(guī)則。學(xué)習(xí)和理解人類(lèi)駕駛員遵循的社會(huì)規(guī)范有助于高效安全的交互。
如圖說(shuō)明了兩個(gè)智體(人類(lèi)駕駛員和/或AV)之間的動(dòng)態(tài)通信過(guò)程,每個(gè)智體在信息交換過(guò)程中扮演兩個(gè)角色:信息發(fā)送者和接收者。例如,智體A將充當(dāng)信息發(fā)送者,“告訴”智體B其意圖。同時(shí),智體B應(yīng)該感知并理解智體A提供的信息(即感知),然后通過(guò)提供可識(shí)別的有用信息采取一些行動(dòng)來(lái)響應(yīng)或適應(yīng)智體A。
賦予AVs人類(lèi)社會(huì)能力,提高復(fù)雜交通場(chǎng)景中的交互性能。例如,用計(jì)算認(rèn)知模型對(duì)人類(lèi)社會(huì)偏好(如利他、親社會(huì)、利己和競(jìng)爭(zhēng))以及與AV交互時(shí)的合作水平進(jìn)行定量評(píng)估。
在量化社會(huì)交互之前,我們首先需要弄清楚在特定場(chǎng)景中 “交互何時(shí)發(fā)生?”或者“是否人類(lèi)駕駛員之間發(fā)生交互?”。一個(gè)相關(guān)的問(wèn)題是 “誰(shuí)參與了交互?”
在實(shí)際交通中,道路使用者并不總是有豐富的交互。例如,在人行道上移動(dòng)的單個(gè)行人通常不會(huì)影響其他行人,但更豐富社會(huì)交互模式的任務(wù)除外,例如體育。同樣,駕駛員之間豐富的社會(huì)交互可能并不總是發(fā)生。
人類(lèi)駕駛員主要單獨(dú)駕駛,并對(duì)物理環(huán)境做出反應(yīng),但在大多數(shù)駕駛?cè)蝿?wù)中,如高速公路的車(chē)道保持行為和城市信號(hào)交叉路口的受保護(hù)左轉(zhuǎn)行為,不會(huì)與其他道路使用者直接交互。有三種常用的方法來(lái)確定何時(shí)發(fā)生交互以及誰(shuí)參與交互。
潛在沖突檢查
確定一個(gè)駕駛員是否會(huì)與另一個(gè)駕駛員(直接或間接)交互的一種直接方法是檢查他們近期的路徑是否沖突。如果路徑?jīng)_突,則會(huì)發(fā)生交互,否則不會(huì)發(fā)生交互。該檢查方法即沖突點(diǎn)的定義,“靠近車(chē)輛路徑合并、分流或交叉區(qū)域的位置?!?/p>
假設(shè)只有潛在沖突的車(chē)輛才能相互交互,簡(jiǎn)化了交互場(chǎng)景,這與日常駕駛過(guò)程中的人類(lèi)直覺(jué)一致??梢詮亩鄠€(gè)移動(dòng)目標(biāo)的預(yù)測(cè)未來(lái)運(yùn)動(dòng)和意圖來(lái)評(píng)估潛在沖突。
駕駛員可以利用道路幾何和交通法規(guī)的相關(guān)信息來(lái)檢查與他人的潛在沖突。當(dāng)駕駛員進(jìn)入交通規(guī)則明確的交叉路口時(shí),可以通過(guò)檢查與其他虛擬參考線(xiàn)的交叉點(diǎn)來(lái)識(shí)別沖突點(diǎn)。此外,駕駛員還用指示語(yǔ)及其對(duì)他人意圖和動(dòng)作的社會(huì)推理來(lái)識(shí)別潛在沖突點(diǎn)。例如,當(dāng)駕駛員(表示為A)注意到相鄰車(chē)輛(表示為B)打著閃光燈(即指示燈)或有意接近,目的是切入駕駛員A的前方間隙(即社會(huì)推理)時(shí),駕駛員A可以識(shí)別駕駛員B的換道意圖,接著發(fā)生沖突。
感興趣區(qū)域設(shè)置
確定交互何時(shí)發(fā)生的另一種方法是在環(huán)境中設(shè)置特定的感興趣區(qū)域(RoI)。同時(shí)占據(jù)RoI的任意一對(duì)智體之間存在交互,并且一旦任何一個(gè)智體移動(dòng)到RoI之外,交互就會(huì)消失。設(shè)置RoI通常是面向應(yīng)用的,可以根據(jù)以下兩種方法進(jìn)行設(shè)計(jì):
以場(chǎng)景為中心。確定地圖上的RoI,并將該地區(qū)的所有人類(lèi)駕駛員視為交互智體。該方法通常用于預(yù)測(cè)和分析特定交通區(qū)域(如城市交叉口和環(huán)島)中的多智體駕駛行為。在這些情況下,研究人員在地圖上確定了涵蓋此類(lèi)場(chǎng)景的RoI,并假設(shè)占據(jù)RoI的所有駕駛員都會(huì)相互影響。
以智體為中心。將RoI與一個(gè)感興趣的智體(即自智體)連接起來(lái)。這種方法通常用于研究自智體與其周?chē)求w的交互行為,例如高速公路上的車(chē)道變換行為。RoI的形狀有多種選擇。例如,在研究高速公路上的車(chē)道變換交互行為時(shí),通常將矩形區(qū)域連接到自車(chē)并設(shè)置為RoI。
請(qǐng)注意,有些方法還混合二者。例如,在設(shè)定高速公路路段的RoI后,進(jìn)一步計(jì)算了智體之間的距離,以確定交互的存在。
上述RoI需要手工制定的規(guī)則,相關(guān)的評(píng)估性能可能對(duì)RoI的配置敏感。一般來(lái)說(shuō),RoI越大,參與的智體越多,可能會(huì)高估交互;而RoI小,參與的智體越少,可能會(huì)低估交互。為了克服這些缺點(diǎn),可以根據(jù)駕駛?cè)蝿?wù)主動(dòng)選擇交互智體。
面向任務(wù)的智體選擇
人類(lèi)將根據(jù)具體的駕駛?cè)蝿?wù),有選擇地確定應(yīng)該更多關(guān)注哪些智體以及何時(shí)應(yīng)該關(guān)注。受這一事實(shí)的啟發(fā),研究人員根據(jù)問(wèn)題及其相應(yīng)交互過(guò)程的領(lǐng)域知識(shí),根據(jù)經(jīng)驗(yàn)為特定任務(wù)選擇交互智體。例如,對(duì)于左車(chē)道變換任務(wù),研究人員假設(shè)自車(chē)僅與當(dāng)前車(chē)道上的領(lǐng)頭車(chē)輛以及左目標(biāo)車(chē)道上的領(lǐng)頭和跟隨車(chē)輛交互。該假設(shè)符合人類(lèi)駕駛經(jīng)驗(yàn),并且可以通過(guò)只關(guān)注任務(wù)相關(guān)的智體來(lái)簡(jiǎn)化交互問(wèn)題。然而,它需要具有特定領(lǐng)域知識(shí)的手工規(guī)則,并且可能無(wú)法捕捉個(gè)體在如何關(guān)注方面的差異。
檢查駕駛員對(duì)彼此的影響可以確定是否存在人類(lèi)交互。對(duì)于駕駛員之間的交互,一項(xiàng)關(guān)鍵任務(wù)是弄清楚 “如何在利用社會(huì)因素的同時(shí)量化這些交互?” 常用的量化方法,通??煞譃閮深?lèi):基于顯式模型的方法和隱式數(shù)據(jù)驅(qū)動(dòng)的方法。
基于模型的方法
最常用的顯式量化交互的方法是構(gòu)建交互模型,其中一些參數(shù)可以從傳感器數(shù)據(jù)中估計(jì),以量化智體之間的社會(huì)交互強(qiáng)度。研究人員利用基于不同假設(shè)的傳感器信息開(kāi)發(fā)了許多交互模型,如圖所示四類(lèi)。
對(duì)于作為模型輸入的傳感器數(shù)據(jù),設(shè)計(jì)師可以明確解釋與物理距離相關(guān)的度量,從而獲得更多研究人員的吸引。在應(yīng)用中,可以直觀(guān)地假設(shè)交互強(qiáng)度與交通場(chǎng)景中智體相對(duì)距離及其變量(例如,相對(duì)速度和加速度)相關(guān)。例如,相距較近的駕駛員在直覺(jué)上會(huì)視為彼此具有較大的交互影響。
1 基于理性效用的模型
人類(lèi)駕駛行為或動(dòng)作是(接近)最佳結(jié)果,可最大化環(huán)境的某些效用。在這一點(diǎn)上,研究人員將物理距離相關(guān)信息整合到目標(biāo)/成本函數(shù)中,將駕駛員之間的相互作用表述為優(yōu)化問(wèn)題,這可以用現(xiàn)成的動(dòng)態(tài)和線(xiàn)性規(guī)劃算法來(lái)解決。通常,成本函數(shù)是根據(jù)交通管制和駕駛?cè)蝿?wù)的先驗(yàn)域知識(shí)手工構(gòu)建的。例如,研究人員將駕駛員的換道機(jī)動(dòng)視為一個(gè)優(yōu)化問(wèn)題,即在車(chē)輛動(dòng)力學(xué)約束下最小化橫向路徑跟蹤誤差(橫向控制),同時(shí)保持期望速度(縱向控制)。通常,基于效用的模型可以在類(lèi)似場(chǎng)景中仔細(xì)調(diào)參達(dá)到預(yù)期性能,但在未知場(chǎng)景中通用性較低。通常使用的模型是最優(yōu)群(optimal swarms)、博弈論模型、模仿學(xué)習(xí)和馬爾可夫決策過(guò)程(MDP)。
2 概率生成模型
社會(huì)交互情境的描述是一種條件,其中單個(gè)駕駛員的行為由其組織特征和環(huán)境決定,其他駕駛員的行為是環(huán)境的一個(gè)組成部分,反之亦然。從條件概率角度來(lái)看,駕駛員之間的交互影響可以解釋為“在感知到周?chē)渌{駛員的狀態(tài)后,一個(gè)駕駛員可能怎樣采取特定的行動(dòng)?”。該問(wèn)題可以通過(guò)概率條件分布或條件行為預(yù)測(cè)來(lái)表示。
這一概念是貝葉斯網(wǎng)絡(luò)的基礎(chǔ)。此外,可以通過(guò)一種意外的交互來(lái)量化智體的交互作用。在這種交互作用中,一個(gè)智體(表示為智體B),由于另一個(gè)智體(表示為智體A)觀(guān)察到的軌跡,而經(jīng)歷行為的變化。這種想法使得信息論中的大多數(shù)現(xiàn)成相似性度量方法(如KL發(fā)散)變得容易。
另一方面,交互作用也可以進(jìn)一步視為(潛在的)概率生成過(guò)程或條件概率模型。例如,一種概率圖模型捕捉領(lǐng)頭車(chē)輛的未來(lái)狀態(tài)與動(dòng)態(tài)系統(tǒng)(即領(lǐng)頭車(chē)輛和后隨車(chē)輛)歷史狀態(tài)之間的相互作用。然而,它沒(méi)有考慮并入車(chē)輛對(duì)前后車(chē)輛之間相互作用的影響。一種交互-覺(jué)察概率駕駛員模型,捕捉駕駛員的交互偏好,并且考慮到周?chē){駛員行為的預(yù)測(cè),駕駛員將在當(dāng)前時(shí)間步執(zhí)行機(jī)動(dòng)。然后,在逆優(yōu)化框架下,通過(guò)加權(quán)特征(即導(dǎo)航和風(fēng)險(xiǎn)特征)的組合來(lái)制定交互偏好。
3 潛在/風(fēng)險(xiǎn)域
基于人類(lèi)駕駛行為來(lái)自基于風(fēng)險(xiǎn)域的假設(shè),提出潛在/風(fēng)險(xiǎn)域的模型。在人類(lèi)機(jī)器人和多車(chē)輛交互,已經(jīng)廣泛研究了勢(shì)函數(shù)對(duì)智體之間交互進(jìn)行建模。物理距離相關(guān)度量通過(guò)某些可學(xué)習(xí)可解釋的函數(shù)(稱(chēng)為潛函數(shù))允許有效地制定交互,這些函數(shù)可以嵌入交通規(guī)則和駕駛場(chǎng)景上下文的領(lǐng)域知識(shí)。
另一方面,勢(shì)函數(shù)相對(duì)坐標(biāo)系(例如,x和y方向)的導(dǎo)數(shù),導(dǎo)致“推”或“拉”車(chē)輛的尺度化虛擬力,最小化車(chē)輛的局部規(guī)劃成本,同時(shí)與周?chē)鸟{駛員進(jìn)行交互。研究人員還設(shè)計(jì)了能量函數(shù),根據(jù)周?chē)?chē)輛和自車(chē)之間的相對(duì)距離(通常是兩條車(chē)輛軌跡的最小值或最近點(diǎn))捕捉車(chē)輛間的交互作用。
然而,基于相對(duì)距離的測(cè)量并不總是正確地捕捉駕駛員之間的交互。當(dāng)智體之間存在物理約束時(shí),距離較近的駕駛員可能非常弱或無(wú)交互作用,例如高速公路護(hù)欄或?qū)γ孳?chē)道的分隔線(xiàn)。
4 認(rèn)知模型
研究人員用相對(duì)距離來(lái)表征駕駛員風(fēng)格,并揭示多智體之間的交互過(guò)程,例如,心理學(xué)理論和信息累積測(cè)度。從行為科學(xué)和心理學(xué)角度出發(fā),還開(kāi)發(fā)了其他類(lèi)型的交互模型來(lái)模擬人類(lèi)的駕駛行為。
數(shù)據(jù)驅(qū)動(dòng)的方法
與上述模型不同,該模型直接利用顯式傳感器信息來(lái)表征人類(lèi)駕駛員之間的交互,另一種方法使用編碼的隱式信息來(lái)量化交互。此類(lèi)隱式信息通常以低維標(biāo)量或向量的形式出現(xiàn)(在圖模型中也稱(chēng)為嵌入),分為三種編碼交互的方法。
神經(jīng)網(wǎng)絡(luò)表示通過(guò)一系列基本層(例如,卷積和遞歸)將多個(gè)傳感器信息映射到低維向量特征,例如,在自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)(GAN)結(jié)構(gòu)中。此外,注意機(jī)制還可以集成到網(wǎng)絡(luò)中,模擬駕駛員之間的交互。
2 具有社會(huì)池化的圖神經(jīng)網(wǎng)絡(luò)
圖神經(jīng)網(wǎng)絡(luò)(GNN)與常規(guī)深度學(xué)習(xí)(嵌入結(jié)構(gòu)信息作為模型輸入的多層神經(jīng)網(wǎng)絡(luò))有一些共同點(diǎn)。信息池化是一種靈活的工具,可根據(jù)深度神經(jīng)網(wǎng)絡(luò)和大量編程開(kāi)源的優(yōu)勢(shì),將時(shí)域空間和空域空間的智體之間關(guān)系抽象為低維可量化嵌入(例如,歸一化連續(xù)向量)。嵌入可以是時(shí)域相關(guān)的,捕獲演化圖(evolving graph)中節(jié)點(diǎn)和邊緣的時(shí)間信息。
因此,它們可以通過(guò)聚合操作來(lái)表征人類(lèi)駕駛員之間的交互強(qiáng)度,例如平均聚合、加權(quán)聚合和圖演化消息(或圖消息傳遞)。此外,池化操作可以獨(dú)立或同時(shí)用不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)將信息嵌入到時(shí)域和空域維度上的低維潛狀態(tài)中。前者通常首先應(yīng)用時(shí)域模型(例如,LSTM)來(lái)獨(dú)立概括每個(gè)駕駛員隨時(shí)間變化的特征,然后用一個(gè)社會(huì)模型制定概括特征的交互,如convolutional social pooling。
能夠模擬車(chē)輛交互的編碼嵌入可以通過(guò)訓(xùn)練GAN和自動(dòng)編碼器獲得。盡管一些方法在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中顯示了有希望的結(jié)果,但仍不清楚這些方法應(yīng)該用什么信息來(lái)預(yù)測(cè)未來(lái)狀態(tài),以及如何用物理意義解釋這些嵌入。量化交互關(guān)系的另一種方法,是在序列觀(guān)測(cè)下采用某些圖邊緣的可學(xué)習(xí)權(quán)重,也稱(chēng)為加權(quán)圖邊緣。這些“編碼器”的一個(gè)顯著特征是,它們很少或根本沒(méi)有提及學(xué)習(xí)的編碼信息的有效性和可解釋性。
3 拓?fù)淠P?/p>
編碼駕駛員之間交互的另一個(gè)想法是使用拓?fù)渚幙棧╰opological braids)的形式將其映射為二重代數(shù)和幾何性質(zhì)的緊湊表示。這種緊湊的拓?fù)浔硎居兄诶斫馊魏苇h(huán)境中與任何數(shù)量駕駛員的復(fù)雜交互行為。
對(duì)社會(huì)駕駛過(guò)程中的影響建模
交通場(chǎng)景中的顯式傳感器信息和其他駕駛員行為中的隱式社會(huì)推斷,使人類(lèi)可以非常好地駕駛,從而進(jìn)行安全的和社會(huì)可接受的操縱。人類(lèi)的天性是,以社會(huì)偏好、社會(huì)模仿和社會(huì)推理等因素,賦予信息吸收和行為預(yù)期能力,這是社會(huì)兼容駕駛行為的核心。
對(duì)這些社會(huì)因素的定量評(píng)估需要計(jì)算認(rèn)知科學(xué)和技術(shù)。
1 駕駛偏好的社會(huì)價(jià)值取向(SVO,Social Value Orientation)
人類(lèi)駕駛員在與他人交互時(shí)會(huì)有各種社會(huì)偏好。社會(huì)偏好,如其他人類(lèi)駕駛車(chē)輛的利他傾向,可以從計(jì)算心理學(xué)(如SVO)進(jìn)行定量評(píng)估。SVO模型衡量了一個(gè)駕駛員如何將其獎(jiǎng)勵(lì)相對(duì)其他智體的獎(jiǎng)勵(lì)的加權(quán),這可以從逆強(qiáng)化學(xué)習(xí)(IRL)結(jié)構(gòu)下的觀(guān)測(cè)軌跡中學(xué)習(xí)。然后,SVO模型的在線(xiàn)學(xué)習(xí)駕駛偏好,集成到兩輛或多輛的車(chē)輛協(xié)同交互的游戲場(chǎng)景中。SVO概念已被廣泛研究并應(yīng)用于社會(huì)兼容的自主駕駛中。
2 社交驅(qū)動(dòng)模仿的社會(huì)凝聚力
”人類(lèi)駕駛員像綿羊一樣相互跟隨‘,共同作用對(duì)交通行為的影響非常強(qiáng)烈。因此,人類(lèi)駕駛車(chē)輛的行為具有社會(huì)凝聚力——駕駛員會(huì)采取與周?chē){駛員類(lèi)似的行動(dòng)。例如,如果領(lǐng)頭車(chē)輛減速并采取輕微的“避碰”行為,自車(chē)駕駛員通常會(huì)采取類(lèi)似的行動(dòng),在社交上假設(shè)可能存在虛擬障礙物(例如,圓錐體、動(dòng)物身體、路面坑)。受人類(lèi)駕駛員司社會(huì)凝聚力的啟發(fā),有人開(kāi)發(fā)了一種凝聚增強(qiáng)的獎(jiǎng)勵(lì)函數(shù),確定哪些方面(what aspects)、誰(shuí)(who)、和何時(shí)(when)跟隨以保證安全,自動(dòng)跟隨其他車(chē)輛。
3 現(xiàn)場(chǎng)-覺(jué)察的社會(huì)感知
人類(lèi)可以主動(dòng)收集并獲取有關(guān)環(huán)境的附加信息,創(chuàng)建相對(duì)完整的交通場(chǎng)景,從而提供足夠的信息并提高環(huán)境意識(shí),從而進(jìn)行安全高效的機(jī)動(dòng)。例如,通過(guò)感知相鄰車(chē)輛的減速和停車(chē)行為,無(wú)論駕駛員的視線(xiàn)是否被遮擋,人類(lèi)駕駛員可以推斷出潛在的行人通過(guò)道路。人類(lèi)將其他駕駛員視為傳感器的能力已被設(shè)計(jì)并集成到自動(dòng)駕駛車(chē)輛中,增強(qiáng)駕駛員的現(xiàn)場(chǎng)-覺(jué)察。
4 駕駛風(fēng)格的社會(huì)交互風(fēng)格
人類(lèi)駕駛員通過(guò)評(píng)估和平衡未來(lái)不同的獎(jiǎng)勵(lì)條款來(lái)制定規(guī)劃并采取行動(dòng)。根據(jù)其內(nèi)部模型、駕駛?cè)蝿?wù)和動(dòng)機(jī),人類(lèi)可能會(huì)格外關(guān)注不同的獎(jiǎng)勵(lì)條件,通過(guò)這些條件,人類(lèi)與周?chē)h(huán)境之間表現(xiàn)出不同的交互風(fēng)格,如攻擊性、保守性、禮貌性、自私性和非理性。因此,交互樣式可以表示為在生成軌跡時(shí)不同特征的加權(quán)結(jié)果。例如,研究人員定量衡量這些社會(huì)因素誘發(fā)的交互風(fēng)格作為獎(jiǎng)勵(lì)特征。然后,用逆強(qiáng)化學(xué)習(xí)(IRL)從軌跡中學(xué)習(xí)此類(lèi)特征的權(quán)重或排名目標(biāo)函數(shù)。
如圖是人類(lèi)駕駛員之間交互建模和學(xué)習(xí)的方法概述:包括基于理性效用的模型、基于深度神經(jīng)網(wǎng)絡(luò)的模型、基于圖模型、社會(huì)場(chǎng)和社會(huì)力以及計(jì)算認(rèn)知模型。
基于理性效用的模型
日常交通中最常見(jiàn)的交互場(chǎng)景是城市環(huán)境和高速公路中的跟車(chē)、匯入/匯出和換道。研究人員將人類(lèi)駕駛員視為最優(yōu)控制器,其具有可訪(fǎng)問(wèn)的目標(biāo)函數(shù),實(shí)現(xiàn)預(yù)定義的目標(biāo)導(dǎo)向(goal-oriented)任務(wù),制定這些場(chǎng)景中的行為。
例如,當(dāng)在公路閘道上匯合時(shí),將整個(gè)過(guò)程視為一個(gè)顯式動(dòng)態(tài)系統(tǒng),可以將公路上后方車(chē)輛對(duì)前方車(chē)輛的縱向行為(如加速/減速)表示為一個(gè)最優(yōu)控制器。然而,自然交通場(chǎng)景中駕駛員或其他人之間的交互具有物理(例如,運(yùn)動(dòng)學(xué)和幾何)和社會(huì)(例如,意圖、注意和責(zé)任)約束。
通常,基于優(yōu)化的方法需要特定的目標(biāo)(例如,車(chē)輛之間的期望間隙和車(chē)頭前進(jìn)速度)和待優(yōu)化的目標(biāo)函數(shù)。
本文沒(méi)有列舉所有基于優(yōu)化的方法,但選擇了一些流行的方法,包括基于swarm/flocking的模型、博弈論模型、模仿學(xué)習(xí)和馬爾可夫決策過(guò)程(MDP)。
基于swarms/flocks的方法
值得注意的是,在應(yīng)用中Reynolds規(guī)則的大多數(shù)具體實(shí)例是基于牛頓運(yùn)動(dòng)定律傳播的動(dòng)態(tài)模型。因此,這需要開(kāi)發(fā)一套反映Reynolds定律的力分量全集,這些力分量(即內(nèi)聚、分離和對(duì)齊)與用于模擬行人交互的社會(huì)力理論各部分完全匹配。
Reynolds規(guī)則揭示了交互的基本機(jī)制,比基于社會(huì)力的理論更具普遍性。
盡管flocking啟發(fā)的規(guī)則成功地揭示了動(dòng)物(如鳥(niǎo)類(lèi)、魚(yú)類(lèi)和羊群)之間的群體(swarm)交互機(jī)制,但它們只能在自由空間或有靜態(tài)障礙物的空間(如天空中的鳥(niǎo)類(lèi)和海洋中的魚(yú)類(lèi))中很好地工作。
在交互式交通場(chǎng)景中,這些規(guī)則可能由于兩種類(lèi)型約束而失效。
?。╥)交通環(huán)境的限制。flocks運(yùn)動(dòng)的空間有微弱的物理限制,甚至沒(méi)有物理限制,例如在開(kāi)闊的天空和水下。相反,道路車(chē)輛的運(yùn)動(dòng)空間具有來(lái)自道路輪廓和交通基礎(chǔ)設(shè)施的許多約束。例如,車(chē)輛應(yīng)在車(chē)道內(nèi)行駛,而不是在道路邊界內(nèi)行駛。
?。╥i)智體本身的約束。行人和flocks具有高度的運(yùn)動(dòng),例如行人可以在不改變位置的情況下轉(zhuǎn)身。然而,人類(lèi)駕駛員操作的車(chē)輛具有物理運(yùn)動(dòng)約束,例如車(chē)輛結(jié)構(gòu)導(dǎo)致的最大轉(zhuǎn)彎角和最小轉(zhuǎn)彎半徑。
總之,在真實(shí)道路交通中,采用flocks啟發(fā)的方法去捕捉人類(lèi)駕駛員交互會(huì)帶來(lái)一些挑戰(zhàn):
1.交通規(guī)則:交通場(chǎng)景是結(jié)構(gòu)性的,因?yàn)榻煌?biāo)志和燈控制交通。人類(lèi)駕駛員應(yīng)該遵守許多交通規(guī)范和規(guī)則,以確保安全和效率,例如保持車(chē)輛在車(chē)道上。
2.個(gè)體異質(zhì)性:并非每個(gè)人類(lèi)駕駛員都會(huì)嚴(yán)格遵守Reynolds規(guī)則的每一項(xiàng);相反,人類(lèi)駕駛員可能會(huì)根據(jù)他們的駕駛?cè)蝿?wù)調(diào)整規(guī)則。例如,人類(lèi)駕駛員的期望狀態(tài)可能因其駕駛風(fēng)格而不同。此外,人類(lèi)行為可能是隨機(jī)和時(shí)變的。因此,因?yàn)榈缆肥褂谜叩膫€(gè)體異質(zhì)性,很難完美地標(biāo)定模型匹配所有個(gè)體的觀(guān)測(cè)值。
博弈方法
大多數(shù)最早的駕駛員交互博弈論模型關(guān)注矩陣博弈。目前,大多數(shù)人將交互行為轉(zhuǎn)化為迭代優(yōu)化問(wèn)題,角色分配將影響模型性能。因此,動(dòng)態(tài)博弈所需的第一個(gè)問(wèn)題是“自車(chē)應(yīng)如何在連續(xù)博弈的單個(gè)階段考慮其他駕駛員的影響和角色?”通常,這個(gè)問(wèn)題有三種解決方案,如圖所示,將人類(lèi)駕駛員視為(a)障礙,(b)理性追隨者,以及(c)相互依賴(lài)的參與者。
博弈論框架提供了一個(gè)可解釋的顯式解決方案來(lái)模擬人類(lèi)駕駛員之間的動(dòng)態(tài)交互。然而,盡管簡(jiǎn)化系統(tǒng)動(dòng)力學(xué)和信息結(jié)構(gòu)方面取得了一些進(jìn)展,但仍難以滿(mǎn)足其在連續(xù)狀態(tài)-動(dòng)作空間中計(jì)算易處理的實(shí)時(shí)約束。由于這些限制,大多數(shù)當(dāng)前的博弈論交互建模方法都存在可擴(kuò)展性問(wèn)題,因此僅限于兩個(gè)車(chē)輛的設(shè)置和模擬實(shí)驗(yàn),或只是成對(duì)地處理多智體場(chǎng)景。
社會(huì)偏好是一種方法,將重復(fù)博弈的長(zhǎng)期影響補(bǔ)償為單步博弈的獎(jiǎng)勵(lì)。社會(huì)價(jià)值反映了智體在交互中的經(jīng)驗(yàn),可嵌入智體的效用(RL領(lǐng)域稱(chēng)為獎(jiǎng)勵(lì),或控制理論領(lǐng)域稱(chēng)為成本函數(shù))。
人類(lèi)是有適應(yīng)性的,通過(guò)與環(huán)境安全交互的獎(jiǎng)勵(lì)-強(qiáng)化機(jī)制學(xué)習(xí)駕駛。受此啟發(fā),學(xué)習(xí)與其他駕駛員交互的過(guò)程,可以通過(guò)博弈論的強(qiáng)化學(xué)習(xí)來(lái)制定。除自車(chē)之外的智體可視為環(huán)境的一部分,會(huì)產(chǎn)生兩種交互建模的博弈方案。如圖所示:分為異步和同步。
?異步方案。每個(gè)駕駛員將其他周?chē){駛員視為環(huán)境的一部分,如圖(a)所示。異步方案下人類(lèi)駕駛員之間的交互動(dòng)力學(xué)可以用特定的博弈論方案實(shí)現(xiàn),如k-級(jí)博弈,其中人類(lèi)駕駛員的行為以迭代方式預(yù)測(cè),如圖(c),而不是同時(shí)評(píng)估。具體來(lái)說(shuō),為了獲得一個(gè)k-級(jí)智體的策略,所有其他智體的策略都設(shè)置為(k-1)-級(jí) ,這有效地成為動(dòng)態(tài)已知環(huán)境的一部分。因此,k-級(jí)智體的策略估計(jì)是對(duì)其他(k-1)級(jí)智體操作的最佳響應(yīng) ,如圖(b)所示。
?同步方案。在多駕駛員交互場(chǎng)景中,每個(gè)人類(lèi)駕駛員都試圖通過(guò)類(lèi)似試錯(cuò)的過(guò)程同時(shí)解決順序決策問(wèn)題。環(huán)境狀態(tài)的演變和每個(gè)人類(lèi)駕駛員收到的獎(jiǎng)勵(lì)函數(shù),是由所有駕駛員的聯(lián)合行動(dòng)決定。因此,人類(lèi)駕駛員需要考慮環(huán)境和其他人類(lèi)駕駛員并與其交互。為此,同步方案可以通過(guò)馬爾可夫博弈,也被稱(chēng)為隨機(jī)博弈,捕獲涉及多個(gè)人類(lèi)駕駛員的決策過(guò)程。每個(gè)智體表示為基于MDP的智體,形成多智體強(qiáng)化學(xué)習(xí)(MARL)。
MARL算法的不同學(xué)習(xí)范式可以設(shè)計(jì)為不同交互任務(wù)的特定假設(shè)。從理論上講,學(xué)習(xí)范式可分為六組,如圖所示:(a)共享策略、(b)獨(dú)立策略和(c)組內(nèi)共享策略。(d) 一旦中央控制器控制所有駕駛員。(e) 集中訓(xùn)練和分散執(zhí)行:在訓(xùn)練期間,駕駛員可以隨時(shí)與任何其他駕駛員交換信息;在執(zhí)行過(guò)程中,駕駛員獨(dú)立操作。(f) 聯(lián)網(wǎng)駕駛員進(jìn)行分散訓(xùn)練:在訓(xùn)練期間,駕駛員可以與網(wǎng)絡(luò)中的鄰居交換信息;在執(zhí)行過(guò)程中,駕駛員獨(dú)立操作。
單智體的MDP
另一個(gè)建模自車(chē)如何學(xué)習(xí)與他人交互的流水線(xiàn)是單智體MDPs方案。單智體MDP假設(shè)包含其他智體的環(huán)境是靜止的,因此可以通過(guò)馬爾可夫決策過(guò)程(MDP)來(lái)表示。自車(chē)在與環(huán)境交互時(shí),動(dòng)態(tài)展開(kāi)交互軌跡,在考慮其行為影響的情況下,嘗試選擇最佳規(guī)劃,最大化相關(guān)獎(jiǎng)勵(lì)。
從人類(lèi)演示學(xué)習(xí)駕駛
以上討論的群優(yōu)化和博弈論方法都是前向設(shè)計(jì)。通過(guò)啟發(fā)式設(shè)置超參來(lái)解決優(yōu)化問(wèn)題,而不是使用數(shù)據(jù)進(jìn)行優(yōu)化。利用認(rèn)知領(lǐng)悟分析場(chǎng)景,然后設(shè)計(jì)一個(gè)先驗(yàn)已知的相關(guān)成本/目標(biāo)函數(shù),模擬人類(lèi)駕駛員之間的交互行為。
駕駛員之間社會(huì)交互背后的決策和運(yùn)動(dòng),潛在機(jī)制是復(fù)雜的,難以編碼為簡(jiǎn)單的手工編程規(guī)則。一般來(lái)說(shuō),演示交互行為要比指定生成相同行為的獎(jiǎng)勵(lì)函數(shù)容易得多。這一事實(shí)為模擬和學(xué)習(xí)人類(lèi)駕駛員的交互提供了另一種選擇:通過(guò)模仿學(xué)習(xí)直接從人類(lèi)演示中學(xué)習(xí)交互行為。
基于所學(xué)(行為軌跡或效用),有兩種方法:(i)行為克隆,其直接學(xué)習(xí)從觀(guān)測(cè)(例如,圖像)到動(dòng)作(例如,轉(zhuǎn)向角和油門(mén)踏板)的映射;或(ii)效用恢復(fù),它間接地使用數(shù)據(jù)來(lái)檢索獎(jiǎng)勵(lì)函數(shù),計(jì)劃的交互行為盡可能地模仿演示。
行為克隆是模仿學(xué)習(xí)的最簡(jiǎn)單形式,它專(zhuān)注于監(jiān)督學(xué)習(xí)去復(fù)制智體的策略。其主要優(yōu)點(diǎn)是簡(jiǎn)單和高效。行為克隆旨在解決回歸問(wèn)題,其中通過(guò)最大化目標(biāo)函數(shù)(例如,在訓(xùn)練數(shù)據(jù)中采取行動(dòng)的可能性)或最小化損失(例如,模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的行為推導(dǎo))來(lái)實(shí)現(xiàn)優(yōu)化。
行為克隆在為簡(jiǎn)單的駕駛行為(如車(chē)道跟蹤和高速公路上的汽車(chē)跟隨)制定駕駛政策方面表現(xiàn)出了效率。行為克隆的成功依賴(lài)于能夠充分覆蓋訓(xùn)練和測(cè)試數(shù)據(jù)集的狀態(tài)和活動(dòng)空間的足夠數(shù)據(jù)。然而,行為克隆并沒(méi)有利用訓(xùn)練過(guò)程中的級(jí)聯(lián)學(xué)習(xí)(cascaded learning)錯(cuò)誤。假設(shè)數(shù)據(jù)獨(dú)立且相同分布(i.i.d.),測(cè)試過(guò)程中將出現(xiàn)級(jí)聯(lián)誤差。因此,行為克隆學(xué)習(xí)的模型在復(fù)雜的交互場(chǎng)景中通常表現(xiàn)不佳。
行為克隆旨在通過(guò)回歸技術(shù)直接復(fù)制專(zhuān)家的行為或軌跡。相反,IRL方法依賴(lài)于從觀(guān)察的交互行為/軌跡中檢索成本函數(shù),前提是獎(jiǎng)勵(lì)函數(shù)在不同交通場(chǎng)景中最簡(jiǎn)潔、穩(wěn)健和可轉(zhuǎn)移。這一假設(shè)與一個(gè)事實(shí)相吻合,即人類(lèi)駕駛員可以從未見(jiàn)過(guò)的場(chǎng)景中與其他智體高效、安全地交互。
恢復(fù)智體之間的交互過(guò)程通常假設(shè)環(huán)境狀態(tài)本質(zhì)上具有馬爾可夫?qū)傩?,其將學(xué)習(xí)任務(wù)模擬為馬爾可夫決策過(guò)程(MDP)。因此,人類(lèi)駕駛員的交互過(guò)程通過(guò)參數(shù)化模型來(lái)描述,該模型參數(shù)可以通過(guò)優(yōu)化設(shè)計(jì)的目標(biāo)函數(shù)來(lái)估計(jì)。直接的方法是使用標(biāo)準(zhǔn)MDP,其中其他人類(lèi)駕駛員被視為環(huán)境的一部分。
在現(xiàn)實(shí)交通中,人類(lèi)駕駛員的感知能力有限,無(wú)法準(zhǔn)確感知所需信息;因此,可以使用部分可觀(guān)察的MDP(POMDP)對(duì)交互進(jìn)行建模。在MDP結(jié)構(gòu)下,人類(lèi)駕駛員的交互決策和控制被視為當(dāng)前交通場(chǎng)景的最佳解決方案,通考慮短期內(nèi)可能的結(jié)果,最大化其回報(bào)(或最小化其成本)。這種假設(shè)允許逆最優(yōu)控制(IOC)或IRL學(xué)習(xí)人類(lèi)駕駛員的交互過(guò)程。
請(qǐng)注意,IRL在模仿學(xué)習(xí)和博弈論模型中用作檢索獎(jiǎng)勵(lì)的函數(shù),但發(fā)揮不同的作用。在模仿學(xué)習(xí)中,IRL旨在學(xué)習(xí)自車(chē)智體的獎(jiǎng)勵(lì)函數(shù),模仿自車(chē)智體的駕駛行為。在博弈論模型中,IRL用于學(xué)習(xí)作為自車(chē)智體輸入的其他智體獎(jiǎng)勵(lì)函數(shù)。
基于深度神經(jīng)網(wǎng)絡(luò)的方法
主要關(guān)注車(chē)輛狀態(tài)(例如,位置、速度、加速度和航向角)作為輸入的方法,同時(shí)考慮以下兩個(gè)方面。首先,直接處理原始傳感器數(shù)據(jù)的深度學(xué)習(xí)方法(例如,攝像機(jī)RGB圖像和3D激光雷達(dá)點(diǎn)云的卷積),通常遵循純端到端學(xué)習(xí)過(guò)程,導(dǎo)致弱和隱式交互推理。此外,這些工作的中心焦點(diǎn)通常不在于交互建模。第二,大多數(shù)現(xiàn)有的高質(zhì)量自主駕駛運(yùn)動(dòng)數(shù)據(jù)集16可以提供足夠和精確的代理狀態(tài)軌跡信息。
交互編碼
深度學(xué)習(xí)是一種強(qiáng)大的工具,具有良好的多智體交互建模潛力。如今,神經(jīng)網(wǎng)絡(luò)可能非常復(fù)雜。例如,用于自然語(yǔ)言處理(NLP)任務(wù)的大型模型GPT-3在其完整版本中有1750億個(gè)模型參數(shù)。
然而,基本上有四種類(lèi)型的基本神經(jīng)網(wǎng)絡(luò)構(gòu)建塊(全連接層、卷積層、遞歸層和圖層),可以為特定應(yīng)用開(kāi)發(fā)復(fù)雜的網(wǎng)絡(luò)。不同的構(gòu)建塊在數(shù)據(jù)和解決方案空間上造成不同的歸納偏差。人們選擇不同的構(gòu)建塊將不同的歸納偏差注入學(xué)習(xí)過(guò)程獲得更好的性能,而不匹配的歸納偏差可能反過(guò)來(lái)導(dǎo)致次優(yōu)或較差的性能。
對(duì)于許多深度學(xué)習(xí)實(shí)踐者來(lái)說(shuō),這些模塊可能已經(jīng)是現(xiàn)成的,并且正在開(kāi)發(fā)每個(gè)層更復(fù)雜的變型和操作。
社會(huì)交互的特征表征
時(shí)空狀態(tài)特征張量、空間占用網(wǎng)格和動(dòng)態(tài)插入?yún)^(qū)域是與深度學(xué)習(xí)模型交互建模常用的三種特征表示。
1)狀態(tài)特征列表
假設(shè)N個(gè)智體對(duì)交通場(chǎng)景感興趣,并且其狀態(tài)特征是可測(cè)量的。將時(shí)間步t第i個(gè)智體的狀態(tài)特征表示為垂直向量x(i),如圖所示。
這種表示是有效的,是表示交互場(chǎng)景所需的最小信息量。然而,它有兩個(gè)局限性。首先,特征大小、車(chē)輛數(shù)量和每個(gè)車(chē)輛的有效時(shí)間步長(zhǎng)T可能隨時(shí)間和空間變化,這對(duì)于期望恒定大小輸入的學(xué)習(xí)方法是有問(wèn)題的。其次,這種類(lèi)型的特征表示是置換可變的,即取決于交互智體列出的順序。例如,簡(jiǎn)單地切換智體i和智體j的特征條目將導(dǎo)致不同的特征表示。避免這些限制的常用方法是使用占用網(wǎng)格圖如下。
2)占用網(wǎng)格圖
占用網(wǎng)格圖定義了自車(chē)周?chē)匆宰攒?chē)為中心)或特定固定區(qū)域(即以場(chǎng)景為中心)中的空間網(wǎng)格。占用網(wǎng)格圖可以處理感興趣區(qū)域(RoI)中不同數(shù)量的智體。占用網(wǎng)格圖可以通過(guò)填充原始狀態(tài)(例如,位置、速度、加速度)或編碼狀態(tài)(例如由全連接層輸出的隱藏狀態(tài))來(lái)表示交互場(chǎng)景。智體之間的空間關(guān)系自然地在網(wǎng)格圖布局中捕獲。此外,如圖所示,如果網(wǎng)格h(i,j)(由色條表示)由隱藏特征填充,這些隱藏特征的編碼獨(dú)立于每個(gè)車(chē)輛的τ時(shí)間步長(zhǎng)歷史軌跡:
請(qǐng)注意,網(wǎng)格圖的形狀取決于場(chǎng)景。例如,網(wǎng)格圖可以是公路交互的矩形網(wǎng)格或環(huán)形交叉口的對(duì)數(shù)極坐標(biāo)網(wǎng)格??臻g網(wǎng)格表示是光柵大小和智體順序不變的,但反過(guò)來(lái),由于張量的大小與覆蓋面積大小和網(wǎng)格分辨率相關(guān),因此會(huì)受到精度-大小權(quán)衡的影響。
3)交互圖
另一種表示將駕駛場(chǎng)景中的實(shí)體表示為圖節(jié)點(diǎn)vi,并將實(shí)體之間的關(guān)系表示為圖邊緣ei。時(shí)間范圍T中的所有節(jié)點(diǎn)和邊緣,然后構(gòu)造時(shí)空交互圖G,該圖允許顯式交互和關(guān)系推理。
有兩種類(lèi)型圖,在實(shí)體/節(jié)點(diǎn)的定義上有所不同。第一種是基于智體的圖,它將場(chǎng)景中的智體表示為節(jié)點(diǎn)。智體指道路參與者,如車(chē)輛、行人、摩托車(chē)。每個(gè)節(jié)點(diǎn)由每個(gè)智體的狀態(tài)特征或編碼特征表示。
基于智體的圖集中于表示智體,而另一個(gè)稱(chēng)為基于區(qū)域的圖集中表示車(chē)輛的意圖。許多方法根據(jù)機(jī)動(dòng)級(jí)別對(duì)駕駛意圖分類(lèi),如車(chē)道保持、車(chē)道變換和轉(zhuǎn)彎。然而,這些操作在駕駛場(chǎng)景中受到高度限制。例如,由于不同的道路拓?fù)浣Y(jié)構(gòu),在高速公路或環(huán)島上的機(jī)動(dòng)可能會(huì)非常不同。
為了使自動(dòng)駕駛車(chē)輛在現(xiàn)實(shí)生活中經(jīng)過(guò)動(dòng)態(tài)交互交通場(chǎng)景,需要對(duì)駕駛意圖進(jìn)行統(tǒng)一和通用的定義。為此,一個(gè)有希望的表示是動(dòng)態(tài)插入?yún)^(qū)域(DIA),即車(chē)輛可以插入的駕駛場(chǎng)景可用間隙。如圖所示,當(dāng)從場(chǎng)景中提取DIA時(shí),靜態(tài)元素(道路拓?fù)?,如Frenet幀坐標(biāo)、道路標(biāo)記,如停車(chē)標(biāo)志)和動(dòng)態(tài)元素(如場(chǎng)景中的移動(dòng)車(chē)輛)都會(huì)被利用。因此,DIA可以作為動(dòng)態(tài)環(huán)境的統(tǒng)一表示,涵蓋所有道路設(shè)置上所有類(lèi)型的駕駛意圖和交互。在形式上,時(shí)間步t的第i個(gè)DIA定義為Ati =(Xfront,Xrear,Xref),包括DIA所在的前邊界Xfront、后邊界Xrear和參考路徑Xref的信息。前邊界和后邊界由車(chē)輛或道路標(biāo)記形成。然后,時(shí)間范圍T中的所有DIA可以構(gòu)造時(shí)空語(yǔ)義圖Gt,其中每個(gè)DIA用作圖的節(jié)點(diǎn)。
社會(huì)交互編碼
智體交互的編碼,采用以下幾種神經(jīng)網(wǎng)絡(luò):全連接層、卷積層、遞推層和圖 層。
全連接層交互編碼的思想是,將來(lái)自不同智體的所有特征展平并連接到單個(gè)向量中,并饋送到全連接層中。理想情況下,智體之間的交互通過(guò)堆疊的全連接層之間的信息交換進(jìn)行編碼和處理。然而,這些架構(gòu)中的交互建模通常被認(rèn)為是非常弱和隱式的,因?yàn)槿狈?shù)據(jù)結(jié)構(gòu)并在模型中造成歸納偏差。
對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),區(qū)分來(lái)自不同智體的特征可能具有挑戰(zhàn)性。此外,按不同順序排列智體導(dǎo)致不同的輸出,這可能是矛盾的,因?yàn)榭紤]的是相同的場(chǎng)景和智體。因此,但很少用于建模智體間交互。
卷積層交互編碼的思想是將時(shí)空特征(例如,狀態(tài)特征張量或占用網(wǎng)格圖饋送到卷積神經(jīng)網(wǎng)絡(luò)中,用于交互分析。
理想情況下,卷積交互編碼可以更好地利用智體之間的空間關(guān)系進(jìn)行更深入的交互推理。然而,實(shí)際交互可以是局部、非局部和選擇性的,取決于具體的駕駛情況。因此,在空間網(wǎng)格上應(yīng)用卷積運(yùn)算是否能夠覆蓋足夠的交互信息和推理仍然是一個(gè)問(wèn)題。
遞歸層交互編碼處理時(shí)域推理的交互編碼。
圖層交互編碼有望更好地處理多智體環(huán)境中的關(guān)系推理。通常,智體被表示為具有屬性的圖節(jié)點(diǎn)。智體之間的關(guān)系由節(jié)點(diǎn)之間的無(wú)向或有向邊緣表示。節(jié)點(diǎn)和邊緣一起構(gòu)成時(shí)空?qǐng)D。然后,創(chuàng)建的圖被饋送到圖層中,用于消息傳遞中的交互學(xué)習(xí),其中每個(gè)節(jié)點(diǎn)聚集其相鄰節(jié)點(diǎn)的特征更新其自身的節(jié)點(diǎn)屬性。這種圖層交互編碼具有兩個(gè)優(yōu)點(diǎn):可變的智體數(shù)和置換不變性。
通過(guò)注意編碼社會(huì)交互
除了上面的神經(jīng)網(wǎng)絡(luò)層之外,另一種編碼主體之間社會(huì)交互的流行思想是注意——一種量化一個(gè)特征如何影響其他特征的機(jī)制,從而表示特征之間的關(guān)系。在實(shí)際交通中,人類(lèi)在交互場(chǎng)景中駕駛車(chē)輛,有選擇性地計(jì)算其他交通智體的空間和時(shí)間影響。每個(gè)智體都應(yīng)該關(guān)注歷史、現(xiàn)在和未來(lái)時(shí)間其他智體的駕駛行為。例如,一名駕駛員在高速公路上臨時(shí)改變車(chē)道時(shí),會(huì)比其他車(chē)道上的車(chē)輛更加關(guān)注目標(biāo)車(chē)道(target lane)的汽車(chē)。
那么,如何制定注意機(jī)制并設(shè)計(jì)注意模塊來(lái)捕捉這種影響呢?
在不損失一般性的情況下,一個(gè)簡(jiǎn)單的想法是將每個(gè)實(shí)體矢量化,然后使用特定的功能度量來(lái)計(jì)算注意水平。以簡(jiǎn)化的兩個(gè)智體交互場(chǎng)景(智體i和智體j是實(shí)體)為例,每個(gè)智體行為由獨(dú)立矢量化特征(分別表示為hi和hj)表征。如果功能測(cè)量輸出大的注意值,則智體i對(duì)智體j具有強(qiáng)大的影響。
根據(jù)最一般的定義,注意機(jī)制可以量化不同類(lèi)型實(shí)體對(duì)時(shí)域空間(短期和長(zhǎng)期)和空域空間(遠(yuǎn)程和局部)的影響。以下有五種常用的實(shí)體表示:
- 時(shí)域注意
- 智體成對(duì)注意
- 基于空域網(wǎng)格的注意
- 基于DIA的注意
- 基于圖的注意
- 模型參數(shù)學(xué)習(xí)
在智體交互建模之后,需要一個(gè)訓(xùn)練過(guò)程來(lái)使用數(shù)據(jù)標(biāo)定模型參數(shù),這通常是通過(guò)基于梯度的優(yōu)化算法實(shí)現(xiàn)的。根據(jù)任務(wù)的目標(biāo),設(shè)計(jì)不同的損失函數(shù)反向傳播和調(diào)整模型參數(shù)。例如,對(duì)于駕駛行為預(yù)測(cè)任務(wù),損失函數(shù)通常會(huì)使預(yù)測(cè)與真實(shí)情況之間的誤差最小化,而對(duì)于強(qiáng)化學(xué)習(xí)任務(wù),損失函數(shù)會(huì)鼓勵(lì)智體獲得更高的回報(bào)。
此外,損失函數(shù)的設(shè)計(jì)還取決于模型輸出的表示。許多現(xiàn)有工作具有模型輸出確定性值,其中訓(xùn)練過(guò)程被視為確定性回歸器。還有一些方法采用生成概率方法,輸出這些行為和意圖的概率分布,其訓(xùn)練過(guò)程是一個(gè)概率最大化過(guò)程。
基于圖模型
日常交通場(chǎng)景中道路用戶(hù)之間的交互是結(jié)構(gòu)化的;它們隨著不確定性的時(shí)空動(dòng)態(tài)變化,其中相互關(guān)聯(lián)的部分(例如,智體、道路線(xiàn)、障礙物)在交通規(guī)則和社會(huì)規(guī)范的約束下組織和演變。事實(shí)上,基于圖的模型為處理交互行為的復(fù)雜性和不確定性提供了一種自然工具。
圖模型提供了一個(gè)直觀(guān)的界面,研究人員可以通過(guò)該界面對(duì)高度交互的變量集和數(shù)據(jù)結(jié)構(gòu)進(jìn)行建模。此外,基于圖的模型通??梢越忉尀槿祟?lèi)主體之間的結(jié)構(gòu)化關(guān)系。使用圖模型,能夠設(shè)想針對(duì)特定環(huán)境的新模型。例如,圖神經(jīng)網(wǎng)絡(luò)將其節(jié)點(diǎn)(頂點(diǎn))指定為人類(lèi)智體、實(shí)例或決策相關(guān)狀態(tài),并將節(jié)點(diǎn)之間的邊緣(?。┲付榻换?,例如智體的速度和相對(duì)位置。
如圖提供了一個(gè)案例,以圖方式表示智體之間的交互關(guān)系,其中行為隨時(shí)間演變。
以下是三種基于圖的交通場(chǎng)景交互建模方法:圖神經(jīng)網(wǎng)絡(luò)、貝葉斯動(dòng)態(tài)網(wǎng)絡(luò)和拓?fù)淠P汀?/p>
圖神經(jīng)網(wǎng)絡(luò)
用于交通智體交互的基于GNN模型,有不同的名稱(chēng),例如交互圖、智體圖、場(chǎng)景圖或交通圖。本文統(tǒng)稱(chēng)為交互圖。
在該模型中,交互場(chǎng)景中的N個(gè)智體通常由具有N個(gè)智體節(jié)點(diǎn)(也稱(chēng)為頂點(diǎn))和N×N條邊緣的圖表示,這些邊緣表征它們之間的交互。交互圖可以具有一些節(jié)點(diǎn)屬性(例如人類(lèi)駕駛員的狀態(tài))和邊緣屬性(例如,人類(lèi)駕駛員之間的關(guān)系)。除了將人類(lèi)智體視為圖節(jié)點(diǎn)外,其他特征,例如潛目標(biāo)位置(例如,車(chē)輛之間的插入?yún)^(qū)域)也可以視為圖節(jié)點(diǎn)。
設(shè)計(jì)的圖結(jié)構(gòu)可以是靜態(tài)的或動(dòng)態(tài)的。借助動(dòng)態(tài)圖,模型可以利用圖關(guān)聯(lián)結(jié)構(gòu)的不同交互和不同的模型輸入。在創(chuàng)建高效的交互圖之前,應(yīng)考慮一些相關(guān)問(wèn)題,包括:
如何使交互圖能夠捕獲智體在空域和時(shí)時(shí)域的依賴(lài)關(guān)系?
如何使學(xué)習(xí)的交互圖可轉(zhuǎn)移?
如何使交互圖適用于交通中的異構(gòu)智體?
如何將環(huán)境信息整合到交互圖中?
如何使交互圖與任意數(shù)量的智體兼容?
貝葉斯動(dòng)態(tài)模型
貝葉斯網(wǎng)絡(luò)是一種概率圖模型(PGM)。通常,PGM被用作一種標(biāo)準(zhǔn)圖工具,用于計(jì)算具有高度結(jié)構(gòu)的大概率分布。與基于GNN的交互模型不同,BNs的節(jié)點(diǎn)表示隨機(jī)變量(例如,具有噪聲或離散機(jī)動(dòng)的智體狀態(tài)或傳感器信息),邊緣表示條件概率分布中節(jié)點(diǎn)之間的隨機(jī)因果關(guān)系。這些依存關(guān)系可以用有向無(wú)環(huán)圖進(jìn)行示意性表示,依賴(lài)的結(jié)構(gòu)通常反映分層生成過(guò)程,類(lèi)似于條件行為預(yù)測(cè)。普通BNs提供了一個(gè)概率圖架構(gòu),該架構(gòu)明確描述了單個(gè)時(shí)間片上智體之間的因果依賴(lài)關(guān)系,但不包括時(shí)間依賴(lài)關(guān)系,如圖(a)所示。
動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)作為一種貝葉斯動(dòng)態(tài)模型,是一種BN,包括節(jié)點(diǎn)的時(shí)間依賴(lài)性,簡(jiǎn)單地說(shuō),隨著時(shí)間的推移重復(fù)普通BN的依賴(lài)性結(jié)構(gòu),如圖(b)所示。DBN節(jié)點(diǎn)在這些時(shí)間片上的某些依賴(lài)性通常被視為交互的時(shí)間動(dòng)態(tài)。
作為一般框架,DBN適用于智體交互,建立描述不確定動(dòng)態(tài)過(guò)程的概率模型。在應(yīng)用中,DBN中的時(shí)間依賴(lài)性通常被實(shí)現(xiàn)為確定性遞歸過(guò)程(如RNN)或一階馬爾可夫過(guò)程(如狀態(tài)空間模型)。從這個(gè)角度來(lái)看,一些SSM和RNN可以被視為DBN的特殊情況。
在實(shí)際交通中,道路使用者的交互行為是非線(xiàn)性的、上下文相關(guān)的,并隨時(shí)間演化。觀(guān)察的傳感器狀態(tài),是其內(nèi)部模型(例如,潛/隱藏狀態(tài))的生成和實(shí)現(xiàn),通常是不可測(cè)量的。
基于BN的交互模型是一個(gè)強(qiáng)大的工具,可以以結(jié)構(gòu)明確的方式捕獲復(fù)雜的交互,包括物理約束、不可觀(guān)測(cè)狀態(tài)和觀(guān)測(cè)的不確定性。通常,使用DBN對(duì)交互進(jìn)行建??蛇M(jìn)行可靠的長(zhǎng)期預(yù)測(cè),因?yàn)槠鋭?dòng)態(tài)地考慮人類(lèi)駕駛員的運(yùn)動(dòng)和決策之間的相互影響(或相關(guān)性)。
然而,模型性能在很大程度上取決于模型假設(shè)的正確性。例如,具有風(fēng)險(xiǎn)最小化假設(shè)的基于DBN模型,無(wú)法正確捕捉實(shí)際危險(xiǎn)交通情況下的條件行為。另一方面,DBN的計(jì)算復(fù)雜度會(huì)隨著交互場(chǎng)景中涉及的智體數(shù)量的增加而呈指數(shù)增長(zhǎng)。因此,目前DBN基于現(xiàn)有數(shù)據(jù)集進(jìn)行離線(xiàn)評(píng)估和實(shí)驗(yàn)室測(cè)試。
貝葉斯非參數(shù)動(dòng)態(tài)網(wǎng)絡(luò)可以從多變量連續(xù)觀(guān)測(cè)中自動(dòng)學(xué)習(xí)相關(guān)模式,而不需要模式數(shù)量的先驗(yàn)知識(shí)。盡管貝葉斯非參數(shù)動(dòng)態(tài)網(wǎng)絡(luò)能夠提取構(gòu)成連續(xù)行為的基本元素,但還不能直接揭示人類(lèi)駕駛員在獎(jiǎng)勵(lì)和行為方面的動(dòng)態(tài)決策過(guò)程。這是因?yàn)樗麄兊幕緞?dòng)態(tài)模型(如HMM、SSM)沒(méi)有考慮獎(jiǎng)勵(lì)和動(dòng)作。
拓?fù)淠P?/p>
在交互場(chǎng)景中,人類(lèi)是通用智體;人類(lèi)行為解釋的機(jī)制是目的論(teleological)。此外,人們的決策受益于其構(gòu)建的心理表征,如拓?fù)浣Y(jié)構(gòu),在復(fù)雜的交互中取得成功,有效地簡(jiǎn)化了推理。因此,人類(lèi)將其觀(guān)測(cè)抽象為高層嵌入,是不變、可共享和可重用的交叉交互場(chǎng)景和行為。那么,如何定義和查找這些嵌入?
盡管貝葉斯非參數(shù)動(dòng)態(tài)網(wǎng)絡(luò)可以在低粒度提取基元來(lái)分析高維序列,但不能考慮多智體交互的行為和幾何結(jié)構(gòu)以及目的性推理。對(duì)于多智能體行為,自然會(huì)提出兩個(gè)基本問(wèn)題:
是否有一種方法可以從代數(shù)和幾何上將任何復(fù)雜的、時(shí)空多智體交互行為編碼為緊湊表示?
是否有一種措施可以識(shí)別智體軌跡保持拓?fù)涞淖冃危?/p>
拓?fù)淠P蜑檫@兩個(gè)問(wèn)題提供了初步解決方案,可以將結(jié)構(gòu)化信息轉(zhuǎn)化為抽象形式。經(jīng)常使用兩種拓?fù)淠P停旱谝粋€(gè)問(wèn)題的拓?fù)渚幙椇偷诙€(gè)問(wèn)題的拓?fù)鋵W(xué)不變性(topological invariance)。
社會(huì)場(chǎng)和社會(huì)力
在模擬復(fù)雜(例如,環(huán)境、內(nèi)部和社會(huì))運(yùn)動(dòng)激勵(lì)下的人類(lèi)駕駛交互時(shí),在感知道路邊界和人行道等交通環(huán)境時(shí),必須考慮人類(lèi)大腦中主動(dòng)產(chǎn)生的虛擬力。另一方面,考慮其他人類(lèi)駕駛員對(duì)社會(huì)駕駛規(guī)則的影響也同樣重要。例如,當(dāng)人類(lèi)駕駛員接近交叉口并在無(wú)保護(hù)情況下左轉(zhuǎn)時(shí),看到一輛激進(jìn)前行的車(chē)輛,駕駛員將在碰撞之前改變其決定。在這個(gè)過(guò)程中,前來(lái)的車(chē)輛不會(huì)向自車(chē)施加接觸力,但人類(lèi)駕駛員的反應(yīng)就像存在力一樣。這種不存在但可以直觀(guān)地描述和解釋社會(huì)交互的虛擬力是社會(huì)力模型。
此外,力是所有交互和運(yùn)動(dòng)的支配和統(tǒng)一因素,基于社會(huì)力的獎(jiǎng)勵(lì)設(shè)計(jì)可以改善多機(jī)器人導(dǎo)航的交互性能。因此,可以合理地假設(shè),與人類(lèi)駕駛員相關(guān)的運(yùn)動(dòng)(例如,前移和轉(zhuǎn)向)由人類(lèi)內(nèi)心產(chǎn)生的虛擬力(例如,內(nèi)部動(dòng)機(jī)、期望速度和目的地)和外部約束(例如,交通管制、障礙物和運(yùn)動(dòng)智體)控制和驅(qū)動(dòng)。
從場(chǎng)和勢(shì)的另一個(gè)角度來(lái)看,人類(lèi)駕駛員跟隨車(chē)道并與其他車(chē)輛交互的根本原因是駕駛員將自己限制在交通環(huán)境和其他因素影響形成的場(chǎng)中。人類(lèi)駕駛員通過(guò)平衡成本和回報(bào)來(lái)生成軌跡并采取行動(dòng),這導(dǎo)致以勢(shì)場(chǎng)(potential field)為特征的總效用。虛擬力迫使人類(lèi)智體向較低的場(chǎng)值移動(dòng),類(lèi)似于物理學(xué)中電場(chǎng)中的帶電粒子。在討論社會(huì)力時(shí),相應(yīng)積分如勢(shì)、場(chǎng)和能量等無(wú)法避開(kāi)。
另一方面,如圖所示,人駕駛車(chē)輛的運(yùn)動(dòng)狀態(tài)(即速度和位置)是從隨時(shí)間變化的加速度得出的。因此,直接學(xué)習(xí)加速度可以捕捉到社會(huì)力的相同交互效應(yīng)。
在物理學(xué)中,物理量(例如速度、溫度、電和磁)在特定空間區(qū)域中的分布稱(chēng)為場(chǎng)(field)。類(lèi)似地,交通相關(guān)量(如感興趣區(qū)域中的風(fēng)險(xiǎn)或安全水平)的分布被稱(chēng)為風(fēng)險(xiǎn)或安全場(chǎng),稱(chēng)為安全旅行場(chǎng)(Safe Travel Field)。場(chǎng)論提供了一個(gè)統(tǒng)一的框架來(lái)描述環(huán)境約束和碰撞風(fēng)險(xiǎn),從中可以實(shí)現(xiàn)移動(dòng)機(jī)器人的次/最優(yōu)軌跡和運(yùn)動(dòng)規(guī)劃。人類(lèi)駕駛員通過(guò)感知-動(dòng)作環(huán)路與周?chē)h(huán)境交互:實(shí)時(shí)評(píng)估環(huán)境的風(fēng)險(xiǎn)水平,預(yù)測(cè)其他智體的運(yùn)動(dòng),然后對(duì)動(dòng)態(tài)環(huán)境產(chǎn)生反應(yīng)。
社會(huì)場(chǎng)
場(chǎng)論是一個(gè)特殊的領(lǐng)域,它揭示在道路行駛時(shí)縱向和橫向車(chē)輛操作交互的潛在機(jī)制。相關(guān)構(gòu)造場(chǎng)也用于表示人類(lèi)駕駛員與交通環(huán)境之間的交互。在多車(chē)輛交互交通場(chǎng)景中,現(xiàn)有研究采用了許多與場(chǎng)理論相關(guān)的不同術(shù)語(yǔ),包括風(fēng)險(xiǎn)場(chǎng)/地圖或駕駛員風(fēng)險(xiǎn)場(chǎng)、駕駛風(fēng)險(xiǎn)勢(shì)場(chǎng),人工勢(shì)場(chǎng),事故風(fēng)險(xiǎn)成本,或駕駛安全場(chǎng)等。雖然使用的術(shù)語(yǔ)多種多樣,但它們有共同點(diǎn):人為設(shè)計(jì)和基于風(fēng)險(xiǎn)信息。社會(huì)場(chǎng)分為三類(lèi):風(fēng)險(xiǎn)/安全場(chǎng)、潛在場(chǎng)和占用場(chǎng)。
安全行駛區(qū)域的特征在于預(yù)定義空間上風(fēng)險(xiǎn)值的標(biāo)量,形成風(fēng)險(xiǎn)場(chǎng)。許多因素會(huì)影響風(fēng)險(xiǎn)水平。交通心理學(xué)認(rèn)為,安全旅行場(chǎng)由三個(gè)子場(chǎng)組成:人類(lèi)駕駛員場(chǎng)、其他人類(lèi)駕駛員場(chǎng)和汽車(chē)場(chǎng)本身。然而,他們沒(méi)有考慮固定交通結(jié)構(gòu)(如道路邊緣和車(chē)道線(xiàn))和交通控制(如停車(chē)標(biāo)志和交通燈)的影響。
研究人員首先定性分析人類(lèi)駕駛員在交互中的典型感知反應(yīng),然后設(shè)計(jì)具有相關(guān)約束的每個(gè)子場(chǎng)函數(shù)。如表1列出了每個(gè)子場(chǎng)公式的幾種常用核函數(shù),其中大多數(shù)是基于高斯的,因?yàn)榭山忉尯涂晌⒎帧?/p>
除靜態(tài)障礙物和道路約束外,所有設(shè)計(jì)的子場(chǎng)都是動(dòng)態(tài)的,并隨時(shí)間和空間變化。也有其他替代方法來(lái)模擬交互作用。例如,一個(gè)簡(jiǎn)單的想法是使用純數(shù)據(jù)驅(qū)動(dòng)的方法,如神經(jīng)網(wǎng)絡(luò),但它們通常缺乏可解釋性。
在物理學(xué)中,電勢(shì)和場(chǎng)之間存在顯式和直觀(guān)的關(guān)系,例如電場(chǎng)和電勢(shì),這里電場(chǎng)是電勢(shì)相對(duì)于距離微分的負(fù)數(shù)。與具有嚴(yán)格、客觀(guān)證明和驗(yàn)證的物理定義勢(shì)不同,安全駕駛勢(shì)函數(shù)是啟發(fā)式,也是人工設(shè)計(jì)的,根據(jù)專(zhuān)家的見(jiàn)解和對(duì)人類(lèi)駕駛行為的理解。
與風(fēng)險(xiǎn)場(chǎng)一樣,勢(shì)場(chǎng)是幾個(gè)獨(dú)立子勢(shì)場(chǎng)的聚合或加權(quán)和。然而,研究人員對(duì)勢(shì)場(chǎng)的定義有不同的看法。一些研究人員認(rèn)為,移動(dòng)和非移動(dòng)目標(biāo)都會(huì)影響勢(shì)場(chǎng)。
基于場(chǎng)論的方法固有的困難是參數(shù)估計(jì)。大多數(shù)研究人員根據(jù)他們對(duì)人-駕駛員互動(dòng)的主觀(guān)定性判斷和評(píng)估確定了場(chǎng)參數(shù)。選擇最優(yōu)超參很繁瑣,這是一個(gè)NP- hard問(wèn)題。雖然估計(jì)場(chǎng)參數(shù)似乎很難,但通過(guò)仔細(xì)設(shè)計(jì)特定駕駛行為的可計(jì)算場(chǎng),已經(jīng)取得了一些有希望的進(jìn)展。
一般來(lái)說(shuō),人類(lèi)駕駛員之間的交互是復(fù)雜的,潛在和風(fēng)險(xiǎn)場(chǎng)的混合可以為特定實(shí)現(xiàn)的行為建模提供有效的解決方案。
社會(huì)力
這里不討論人類(lèi)駕駛員與其他類(lèi)道路使用者(即行人、騎自行車(chē)者和摩托車(chē)者)的交互;相反,只關(guān)心道路人類(lèi)駕駛車(chē)輛之間的交互。
在自然交通場(chǎng)景中,復(fù)雜的傳感器激勵(lì)(即內(nèi)部、環(huán)境和社會(huì))會(huì)帶來(lái)行為反應(yīng),該反應(yīng)取決于人類(lèi)駕駛員的目標(biāo)(aims),并從一組行為備選方案中選擇使效用最大化。理性和有經(jīng)驗(yàn)的人類(lèi)駕駛員通常會(huì)根據(jù)其大腦習(xí)慣適應(yīng)他們熟悉的情況;因此,駕駛員的反應(yīng)是相對(duì)自動(dòng)的,并由他們的經(jīng)驗(yàn)決定哪種反應(yīng)最好。
在這樣的觀(guān)點(diǎn)下,研究人員通過(guò)一個(gè)被稱(chēng)為社會(huì)力的向量化,從數(shù)學(xué)上恢復(fù)了行為規(guī)則和人類(lèi)主體之間的影響。人類(lèi)主體和物理限制之間產(chǎn)生的社會(huì)力是導(dǎo)致行為變化的根源,通常由三種內(nèi)部、環(huán)境和社會(huì)激勵(lì)相對(duì)應(yīng)的力組成:自驅(qū)動(dòng)力、排斥力和吸引力。
這三類(lèi)力來(lái)自行人或人群,基本上涵蓋了交通中交互駕駛行為的所有基本社會(huì)力。然而,由于行人和車(chē)輛之間的差異,有必要修改這些力,使其適合特定應(yīng)用。例如,由于物理限制,對(duì)車(chē)輛加速度和角速度的限制必須比行人更嚴(yán)格。
此外,社會(huì)力量允許將環(huán)境物理約束和交互行為的領(lǐng)域知識(shí)轉(zhuǎn)化為個(gè)人的動(dòng)態(tài)模型。雖然簡(jiǎn)單設(shè)計(jì)復(fù)雜的社會(huì)力模型聽(tīng)起來(lái)很合理,但它通常不會(huì)像預(yù)期的那樣起作用。通用建模過(guò)程是一個(gè)循環(huán)和迭代過(guò)程,包括原型設(shè)計(jì)、參數(shù)調(diào)整、基于仿真的評(píng)估、參數(shù)標(biāo)定以及基于數(shù)據(jù)和仿真的評(píng)估,如圖所示。
標(biāo)定一個(gè)良好的社會(huì)力模型并非易事,因?yàn)椋╥)大多數(shù)模型參數(shù)沒(méi)有可直接測(cè)量的當(dāng)前具體解釋-其中大多數(shù)是抽象意義,(ii)一個(gè)單一參數(shù)通常會(huì)影響駕駛行為的許多方面,盡管社會(huì)力模型被假設(shè)為幾個(gè)獨(dú)立的子力模型的組合,以及(iii)駕駛行為的特定方面由一個(gè)以上參數(shù)產(chǎn)生。
大多數(shù)現(xiàn)有的社會(huì)力模型在沒(méi)有具體解釋的情況下以啟發(fā)式和主觀(guān)方式標(biāo)定模型參數(shù)。沒(méi)有唯一的標(biāo)準(zhǔn)方法來(lái)調(diào)整這些參數(shù)或使用數(shù)據(jù)驅(qū)動(dòng)技術(shù)進(jìn)行模型標(biāo)定。幸運(yùn)的是,存在一些方法來(lái)標(biāo)定行人和車(chē)輛行人的社會(huì)力模型。
當(dāng)使用數(shù)據(jù)驅(qū)動(dòng)技術(shù)進(jìn)行標(biāo)定時(shí),研究人員通常將模型參數(shù)分為兩類(lèi):可測(cè)量和不可測(cè)量??蓽y(cè)量參數(shù)可通過(guò)傳感器直接獲得,或通過(guò)統(tǒng)計(jì)數(shù)據(jù)分析和車(chē)輛的物理限制(如最大轉(zhuǎn)向角和加速度)進(jìn)行標(biāo)定。而對(duì)于不可測(cè)參數(shù),需要使用曲線(xiàn)擬合算法和遺傳算法非線(xiàn)性規(guī)劃。
受加速度和力之間關(guān)系的啟發(fā),直接學(xué)習(xí)加速度是產(chǎn)生社會(huì)力的一種替代方法,而不是通過(guò)場(chǎng)論估計(jì)智體之間受影響力。計(jì)算認(rèn)知模型
認(rèn)知機(jī)制是使人類(lèi)駕駛員通過(guò)隱式通信安全有效地與其他理性主體交互的強(qiáng)大屬性之一。所有捕捉人類(lèi)駕駛員交互的方法都有相關(guān)的行為基礎(chǔ),并得到行為和心理行為認(rèn)知的支持。因此,認(rèn)知理解交互是設(shè)計(jì)有效交互建模方法的前提。解決認(rèn)知科學(xué)前沿的基本問(wèn)題,將是在社交道路上實(shí)現(xiàn)社會(huì)兼容自主駕駛的一個(gè)解決方案。
現(xiàn)有關(guān)于認(rèn)知模型的研究大多集中于個(gè)體的駕駛行為,而不是主體之間的交互。它們特別適用于建模單個(gè)智體在較高級(jí)別和較低級(jí)別行為之間的關(guān)系。
在交互過(guò)程中,駕駛員需要主動(dòng)和被動(dòng)地感知其周?chē)能?chē)輛,根據(jù)其先驗(yàn)知識(shí)對(duì)其他車(chē)輛的當(dāng)前行為以及自車(chē)預(yù)期的未來(lái)潛行為作出反應(yīng),并最終根據(jù)其對(duì)環(huán)境判斷的信念做出有效決策。受交互過(guò)程的啟發(fā),這里試圖從自車(chē)駕駛員的角度回答一些基本問(wèn)題:
1.駕駛員會(huì)如何響應(yīng)他人的行為?
2.駕駛員如何理解他人的行為?
3.駕駛員如何感知,即處理感知信息,去做出決策?
上述三個(gè)問(wèn)題中的每一個(gè)都可以用一個(gè)特定的(但不是唯一的)認(rèn)知理論來(lái)解釋。
激勵(lì)-響應(yīng)
基于此,許多經(jīng)典的交互模型被開(kāi)發(fā)來(lái)解釋人類(lèi)駕駛員,例如經(jīng)典的跟車(chē)模型以及變道交互模型。激勵(lì)-響應(yīng)交互歸類(lèi)為簡(jiǎn)單的社會(huì)交互(例如,跟車(chē)行為中的反應(yīng)性交互)。
心理理論
人類(lèi)是天生的讀心術(shù);人類(lèi)駕駛員天生就具有將自己置于其他駕駛員的位置并對(duì)其行為和意圖進(jìn)行推理的能力。與人工機(jī)器不同,心智理論(ToM)描述了人類(lèi)與其他人類(lèi)主體交互能力的一個(gè)基本屬性,即人類(lèi)可以對(duì)其他人類(lèi)主體的心理狀態(tài)和行為進(jìn)行推理。
一個(gè)經(jīng)典的認(rèn)識(shí)是人類(lèi)通過(guò)鏡像神經(jīng)元的能力,即將自己置于他人的位置的能力,能夠更好地與環(huán)境交互,并更有效地與同伴合作。例如,在高速公路上理性的人類(lèi)駕駛員通常會(huì)留出空間,讓路給試圖合并的閘道車(chē)輛。
在交通心理學(xué)中,ToM廣泛指的是人類(lèi)駕駛員在沒(méi)有明確溝通的情況下代表他人心理狀態(tài)的能力,包括他們的欲望、信念和意圖。
如圖(a)和(b)比較了ToM和IRL/RL的結(jié)構(gòu),并表明可以在IRL/RL結(jié)構(gòu)下指定ToM。藍(lán)色箭頭表示人類(lèi)的心理狀態(tài)推斷(即在某些觀(guān)察行為下,推斷人類(lèi)不可觀(guān)察的信念和愿望),這與IRL中的問(wèn)題相對(duì)應(yīng)(即,根據(jù)一些觀(guān)察策略執(zhí)行,推斷出智體的世界不可觀(guān)察模型和獎(jiǎng)勵(lì)函數(shù))。此外,ToM可以將人類(lèi)心理形式化,即給定觀(guān)察行為不可觀(guān)察變量(即信念、欲望和感知)的貝葉斯推理,這是行為的生成模型。
如表2還說(shuō)明了ToM、IRL/RL和貝葉斯ToM的核心組件之間的聯(lián)系。
另一方面,ToM還提供了博弈論方法和假設(shè),使它們?cè)诮=换r(shí)計(jì)算上易于處理。
信息積累機(jī)制
漂移擴(kuò)散模型(DDM)是一種具有擴(kuò)散(Diffusion)信號(hào)的順序采樣模型。決策者積累證據(jù),直到達(dá)到上限或下限,然后停止并選擇對(duì)應(yīng)于該邊界的備選方案。
一個(gè)典型的例子是在無(wú)信號(hào)環(huán)行交叉口匯入交通流時(shí)的決策過(guò)程。駕駛員在附路的環(huán)形交叉路口等待,直到目標(biāo)“間隙”達(dá)到可接受程度。等待時(shí)間是駕駛員做出匯入風(fēng)險(xiǎn)決策的概率累積指標(biāo):等待時(shí)間越長(zhǎng),做出的風(fēng)險(xiǎn)決策就越大。許多現(xiàn)有的工作只關(guān)注駕駛員將做出什么決策,例如行為建模和預(yù)測(cè),而較少關(guān)注該過(guò)程如何操作,以及隨著觀(guān)察到越來(lái)越多的信息去觸發(fā)決策。
請(qǐng)注意,為了揭示做決策時(shí)如何使用感知信息(即感知決策),行為科學(xué)中通常存在四種決策理論:理性模型、完善理性、證據(jù)累積和并行約束滿(mǎn)足模型。然而,到目前為止,只有證據(jù)積累被用于解釋交通場(chǎng)景中的人類(lèi)駕駛行為。
討論
一些問(wèn)題和可能的方向:
1 社會(huì)交互模型是真得社會(huì)覺(jué)察嗎?2 模型假設(shè)和數(shù)據(jù)集之間的移動(dòng)3 認(rèn)知科學(xué)能幫助自動(dòng)駕駛車(chē)做到社會(huì)兼容?4 軌跡預(yù)測(cè)模型越精準(zhǔn)就越好嗎?
總結(jié)一下:
道路交通的交互:什么角色?什么時(shí)候?
其中提到三種方法:潛在沖突檢查、RoI設(shè)置和面向任務(wù)的智體選擇。
基于潛在沖突的方法將低估交互,因?yàn)楦鶕?jù)潛在沖突定義,例如智體之間的通行權(quán)。然而,駕駛過(guò)程中的一些社會(huì)交互并非源自潛在沖突,而是源自凝聚力。例如,一個(gè)好斗的司機(jī)會(huì)模仿他/她前車(chē)的行為,在十字路口面對(duì)黃燈時(shí)采取機(jī)會(huì)主義行動(dòng)向前沖。
應(yīng)該強(qiáng)調(diào)的是,潛在沖突的方法不會(huì)將其視為一種交互。如果假設(shè)占據(jù)RoI的所有智體都相互作用,則RoI方法可能會(huì)高估交互作用。在自然交通中,并非RoI中的所有智體都在交互網(wǎng)絡(luò)中激活;相反,人類(lèi)駕駛員可能僅與某些智體直接交互。
此外,RoI的大小通常也難以配置,因?yàn)樗c任務(wù)和環(huán)境相關(guān)。面向任務(wù)的智體選擇是模擬人類(lèi)駕駛員如何交互的理想方法。然而,建立這種類(lèi)型的模型具有挑戰(zhàn)性,因?yàn)榻换ミ^(guò)程的了解很少是先驗(yàn)的。此外,人類(lèi)在決策過(guò)程中的選擇性注意是動(dòng)態(tài)和隨機(jī)的),這需要時(shí)域適應(yīng)的模型。
基于理性效用的建模
理性人類(lèi)駕駛行為是對(duì)動(dòng)態(tài)環(huán)境做出響應(yīng)的所有可能解決方案中“接近最優(yōu)”或“最優(yōu)”結(jié)果。這一觀(guān)察結(jié)果,能夠?qū)⑷伺c人之間的交互表述為一個(gè)可計(jì)算的優(yōu)化模型,最大化特定的目標(biāo)。另一種流行的行為優(yōu)化方法是速度障礙(VO,velocity obstacles),用于模擬人類(lèi)駕駛交互同時(shí)保證無(wú)碰撞,該方法已廣泛應(yīng)用于多機(jī)器人領(lǐng)域。該方法成功地模擬異構(gòu)交通環(huán)境中的交互和交通軌跡的預(yù)測(cè)。
基于優(yōu)化的方法在分析上可以解釋?zhuān)跀?shù)學(xué)上可以證明,包括不同的約束以避免碰撞。然而,對(duì)于具有滿(mǎn)意計(jì)算性能的在線(xiàn)應(yīng)用程序來(lái)說(shuō),解決此類(lèi)復(fù)雜優(yōu)化問(wèn)題將是一個(gè)挑戰(zhàn)。
基于神經(jīng)網(wǎng)絡(luò)的建模
基于深度學(xué)習(xí)的方法提供了一種靈活的網(wǎng)絡(luò)架構(gòu),用于表示和學(xué)習(xí)交通智體之間的交互,得益于模塊化的層結(jié)構(gòu)和豐富的數(shù)據(jù)?;谏疃葘W(xué)習(xí)的方法已經(jīng)通過(guò)許多與駕駛相關(guān)的挑戰(zhàn)、競(jìng)賽和排行榜中占據(jù)領(lǐng)先地位而顯示出其力量和前景。未來(lái),為了在真正的自主駕駛系統(tǒng)上安全地大規(guī)模部署,仍然存在許多挑戰(zhàn),例如(i)在保證性能的同時(shí)提高可解釋性,以及(ii)在各種駕駛實(shí)體、場(chǎng)景和情況下增強(qiáng)通用性。
基于圖的模型建模
人類(lèi)駕駛員之間學(xué)習(xí)的時(shí)空交互可以將節(jié)點(diǎn)作為矢量化時(shí)空特征的圖模型來(lái)推理車(chē)輛關(guān)系。雖然GNN和帶有張量融合的社交池化可以方便地使用輔助信息以端到端的方式訓(xùn)練網(wǎng)絡(luò),但它們無(wú)法確保所需的物理或社會(huì)因素是否被實(shí)際捕獲和學(xué)習(xí)(即缺乏可解釋性)。
大多數(shù)用圖模型進(jìn)行多智體行為和軌跡預(yù)測(cè)的工作,都是通過(guò)仔細(xì)采用這些預(yù)測(cè)來(lái)實(shí)現(xiàn)社會(huì)兼容自主車(chē)輛的安全路徑規(guī)劃和控制設(shè)計(jì)。然而,當(dāng)其應(yīng)用于人類(lèi)駕駛-自主駕駛的混合環(huán)境時(shí),在沒(méi)有自主智體的情況下,所導(dǎo)出的交互模型準(zhǔn)確性是值得懷疑的,因?yàn)槿祟?lèi)駕駛員可能對(duì)自動(dòng)駕駛汽車(chē)有不同的行動(dòng)。這些模型忽略自主系統(tǒng)對(duì)人類(lèi)智體的影響。此外,GNN提供了直觀(guān)的理解,但在數(shù)量上并不精確,這不足以用于安全-緊要應(yīng)用,如自動(dòng)駕駛。
社會(huì)力和社會(huì)場(chǎng)的方法
借用物理學(xué)中場(chǎng)的概念(例如,電學(xué)理論中的電場(chǎng)或磁場(chǎng))來(lái)創(chuàng)建一個(gè)驅(qū)動(dòng)自身的虛擬場(chǎng),一種在幾個(gè)方面與社會(huì)因素相結(jié)合、相當(dāng)特殊的場(chǎng)。社會(huì)場(chǎng)和社會(huì)力提供了一個(gè)概念上統(tǒng)一的框架,解釋不同場(chǎng)景中的駕駛員行為,因此可以用于風(fēng)險(xiǎn)評(píng)估、最優(yōu)控制、行為預(yù)測(cè)和路徑規(guī)劃。
此外,它們還可以靈活利用其他交通因素?;趫?chǎng)論的模型通常是根據(jù)研究者對(duì)人類(lèi)駕駛行為的主觀(guān)認(rèn)知和理解,通過(guò)定量分析建立的。因此,可以利用許多因素,例如道路屬性(例如直線(xiàn)和曲線(xiàn)道路)、交通條件、車(chē)輛屬性(例如形狀和質(zhì)量)和人為因素(例如駕駛員的注意)。
理論上,基于場(chǎng)的模型可以處理復(fù)雜的場(chǎng)景,但僅在簡(jiǎn)單的交互場(chǎng)景中得到驗(yàn)證,例如,兩個(gè)智體之間的車(chē)輛跟隨和變道交互,這是由于大量的標(biāo)定工作造成的。
生成場(chǎng)的元素更具選擇性。并非環(huán)境中的所有元素和智體(部分元素和智體)都對(duì)任務(wù)性能有顯著影響。這是因?yàn)橹鲗?dǎo)運(yùn)動(dòng)和駕駛?cè)蝿?wù)的相關(guān)元素出現(xiàn),而非相關(guān)元素通常會(huì)遠(yuǎn)離到背景中。
此外,根據(jù)兩個(gè)人在交互的角色,他們之間的影響可能是不對(duì)稱(chēng)的。例如,周?chē)能?chē)可能是領(lǐng)頭車(chē)、停放車(chē)、尾端車(chē)、匯入車(chē)等,它們對(duì)自車(chē)的潛在影響是不同的。每一類(lèi)汽車(chē)可能共享相同的勢(shì)場(chǎng),從而形成更緊湊的勢(shì)場(chǎng)模型。
安全旅行場(chǎng)本質(zhì)上是客觀(guān)或和主觀(guān)的表征。一些研究人員將駕駛風(fēng)險(xiǎn)場(chǎng)視為一個(gè)物理場(chǎng),并聲稱(chēng)這是一個(gè)客觀(guān)特征,不會(huì)隨個(gè)人的主觀(guān)意愿而變化。從“上帝的角度”來(lái)看,這可能是正確的——如果從鳥(niǎo)瞰的角度分析互動(dòng)行為的話(huà)。
然而,如果從第一人稱(chēng)角度分析自車(chē)的交互行為,并考慮社會(huì)因素,這個(gè)結(jié)論可能是錯(cuò)誤的。該場(chǎng)是人類(lèi)駕駛員主動(dòng)和被動(dòng)感知的風(fēng)險(xiǎn)場(chǎng),反映了人類(lèi)駕駛員在社會(huì)互動(dòng)中的行為和反應(yīng),因此本質(zhì)上是一種主觀(guān)表征。
計(jì)算認(rèn)知模型
計(jì)算認(rèn)知為理解人類(lèi)駕駛員之間社會(huì)交互中各種認(rèn)知功能的本質(zhì)提供了新的視角。借鑒認(rèn)知計(jì)算神經(jīng)科學(xué)的思想和發(fā)現(xiàn),一些工作解釋人類(lèi)駕駛員在交互中的決策過(guò)程。
然而,一方面,現(xiàn)有方法通常提供過(guò)多的細(xì)節(jié),例如,描述低級(jí)神經(jīng)現(xiàn)象,使模型顯得過(guò)大。另一方面,有些方法過(guò)于簡(jiǎn)單,在實(shí)踐中難以處理,例如,僅在實(shí)驗(yàn)室環(huán)境中進(jìn)行測(cè)試,缺乏復(fù)雜駕駛環(huán)境中的原則性調(diào)查,或提供決策的高級(jí)認(rèn)知結(jié)構(gòu)。因此,在實(shí)時(shí)預(yù)測(cè)人類(lèi)駕駛行為中實(shí)現(xiàn)這些機(jī)制的主要實(shí)驗(yàn)室機(jī)制和實(shí)際應(yīng)用之間存在著挑戰(zhàn)性的差距。
討論
很多交互模型未能調(diào)查對(duì)抗性魯棒性,沒(méi)有從社會(huì)理解的角度評(píng)估這些模型與社會(huì)行為的一致性。社會(huì)理解可以揭示當(dāng)前模型的局限性,從而提供未來(lái)可能的方向。
在許多交通應(yīng)用中,模型魯棒性仍然是一個(gè)核心問(wèn)題。這可能是由設(shè)計(jì)模型和生成數(shù)據(jù)之間的不匹配造成的,包括兩個(gè)方面。
交互模型設(shè)計(jì)以目標(biāo)為導(dǎo)向,但人類(lèi)駕駛員產(chǎn)生的行為主要是習(xí)慣性的。這種行為最初是以目標(biāo)為導(dǎo)向的,但后來(lái)在整個(gè)體驗(yàn)中形成習(xí)慣。例如,一個(gè)新的駕駛員用一系列由教師制定的具體子目標(biāo)來(lái)規(guī)劃行動(dòng)。然后,駕駛員消化這些步驟并將其轉(zhuǎn)化為習(xí)慣,無(wú)需設(shè)定這些特定的子目標(biāo)?;诹?xí)慣生成的數(shù)據(jù)集來(lái)訓(xùn)練目標(biāo)導(dǎo)向模型,可能會(huì)削弱模型的泛化能力。對(duì)于模型假設(shè)和數(shù)據(jù)之間的飄移,一種可能的解決方案可能是,制定基于模型和無(wú)模型的框架。
交互模型設(shè)計(jì)是社會(huì)導(dǎo)向的,但行為數(shù)據(jù)是通過(guò)物理交互和社會(huì)交互混合生成。在開(kāi)發(fā)交互模型時(shí),大多數(shù)工作直接建模其交互軌跡,例如使用圖神經(jīng)網(wǎng)絡(luò)(GNN),但忽略了對(duì)交互行為產(chǎn)生的原因和方式的洞察。反事實(shí)(Counterfactual)僅使用社會(huì)交互假設(shè)模型來(lái)近似社會(huì)和物理交互行為。
因此,深入了解相關(guān)數(shù)據(jù),為AI算法提供動(dòng)力,可能是自動(dòng)駕駛車(chē)輛具有社會(huì)兼容性和魯棒性的關(guān)鍵之一。
完美的自動(dòng)駕駛需要超越路徑跟蹤、目標(biāo)檢測(cè)和防撞的直覺(jué)心理。由于技術(shù)障礙和社會(huì)障礙,沒(méi)有直覺(jué)心理的自動(dòng)汽車(chē)等路上無(wú)意識(shí)機(jī)器,與其他人類(lèi)駕駛員共享道路空間還為時(shí)過(guò)早。
社會(huì)兼容的自動(dòng)駕駛車(chē)輛應(yīng)能夠發(fā)現(xiàn)其他人類(lèi)智體的心理狀態(tài)和看法,與其他道路使用者進(jìn)行安全和可接受的交互。換言之,最終目標(biāo)是制造像理性的人類(lèi)駕駛員一樣思考和學(xué)習(xí)的自動(dòng)駕駛汽車(chē)。
然而,在他們學(xué)習(xí)的內(nèi)容和學(xué)習(xí)方式方面,真正類(lèi)似人類(lèi)的學(xué)習(xí)和思考能力超出了當(dāng)前的工程動(dòng)態(tài)。社會(huì)兼容的自主駕駛,迫使開(kāi)發(fā)有效的工具,用結(jié)構(gòu)化計(jì)算認(rèn)知模型的觀(guān)察來(lái)解釋和理解潛在的決策過(guò)程。
智體行為預(yù)測(cè)和推理已被公認(rèn)為安全-緊要交互系統(tǒng)設(shè)計(jì)中不可或缺的一部分;例如,在人類(lèi)環(huán)境中進(jìn)行協(xié)商的自動(dòng)駕駛車(chē)輛,需要在其規(guī)劃和決策中利用人類(lèi)駕駛車(chē)輛的未來(lái)行為。
更多的工作熱衷于在復(fù)雜場(chǎng)景中對(duì)移動(dòng)車(chē)輛進(jìn)行更高精度的軌跡預(yù)測(cè)。在實(shí)踐中,需要仔細(xì)考慮“模型需要多精確才能成功交互”,而不是盲目追求軌跡預(yù)測(cè)的準(zhǔn)確性,有必要考慮人類(lèi)認(rèn)知和行為的哪些方面對(duì)交互性能影響最大。
對(duì)于不同的實(shí)際任務(wù),進(jìn)行非常高精度的軌跡預(yù)測(cè)可能不會(huì)有利于整個(gè)交互性能,盡管它可能有利于低級(jí)控制器的設(shè)計(jì)。人類(lèi)駕駛員的預(yù)測(cè)可能不如機(jī)器(例如,自動(dòng)駕駛車(chē)輛)準(zhǔn)確,但他們?nèi)阅苓M(jìn)行有效的交互。
結(jié)論
了解人類(lèi)駕駛員如何與他人交互是開(kāi)發(fā)社會(huì)兼容自動(dòng)駕駛車(chē)輛的一個(gè)核心問(wèn)題。隨著自動(dòng)駕駛車(chē)輛在社交道路上與其他人類(lèi)智體的交互越來(lái)越緊密,有定量模型來(lái)預(yù)測(cè)這些交互行為變得越來(lái)越重要。
本文首先明確定義了道路交通中的社會(huì)交互。然后,它不可避免地對(duì)人類(lèi)駕駛員和相關(guān)應(yīng)用之間的交互作用進(jìn)行了選擇性回顧,包括基于理性效用的模型、基于深度學(xué)習(xí)的模型、圖模型、社會(huì)場(chǎng)/力和計(jì)算認(rèn)知模型。最后提出了關(guān)鍵的發(fā)現(xiàn)和開(kāi)放的問(wèn)題,這可以為自動(dòng)駕駛車(chē)輛與人駕駛車(chē)輛的交互提供新的方向。
編輯:黃飛
評(píng)論
查看更多