一般來說,在行人間行進(jìn)的智能體在進(jìn)行導(dǎo)航時(shí),需要能夠?qū)Ξ?dāng)前的環(huán)境做出相應(yīng)的觀察,以避免碰撞,進(jìn)行下一步動(dòng)作。在本文中,麻省理工學(xué)院航空航天控制實(shí)驗(yàn)室的Michael Everett和 Jonathan P. How教授,以及Oculus Research的Yu Fan Chen教授,提出一種新型避免碰撞的算法—GA3C-CADRL,通過深度強(qiáng)化學(xué)習(xí)進(jìn)行模擬訓(xùn)練,而不需要智能體對(duì)其他智能體的動(dòng)態(tài)行為有所了解,并通過在網(wǎng)絡(luò)的輸入端使用LSTM,使得算法能夠依據(jù)對(duì)相鄰智能體的觀察結(jié)果來做出決策,進(jìn)而選擇下一個(gè)動(dòng)作。
一般來說,在行人之間進(jìn)行導(dǎo)航的機(jī)器人是使用避免碰撞算法(collision avoidance algorithms)來實(shí)現(xiàn)安全且高效的操作的。在最近的一些研究中,提出了將深度強(qiáng)化學(xué)習(xí)算法作為對(duì)復(fù)雜的交互和協(xié)作進(jìn)行建模的框架。然而,當(dāng)環(huán)境中智能體的數(shù)量增加時(shí),該操作的實(shí)現(xiàn)是通過對(duì)其他智能體偏離現(xiàn)實(shí)的行為的關(guān)鍵性假設(shè)來實(shí)現(xiàn)的。這項(xiàng)研究對(duì)我們以往的研究方法進(jìn)行了擴(kuò)展,開發(fā)出一種算法,該算法可以在各種類型的動(dòng)態(tài)智能體中學(xué)習(xí)避免碰撞,而不必假設(shè)它們遵循任何特定的行為規(guī)則。此外,這項(xiàng)研究還引入了一種使用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的策略,該策略使得算法能夠使用任意數(shù)量的其他智能體的觀測(cè)值,而不是像以往那些需要具有固定觀測(cè)值大小的方法。當(dāng)智能體的數(shù)量增加時(shí),我們所提出的算法在模擬中的性能表現(xiàn)要優(yōu)于我們以往的方法,并且該算法是在一個(gè)沒有使用3D激光雷達(dá)的、以人類行走速度行駛的全自動(dòng)機(jī)器車輛上運(yùn)行得以證明的。
可以這樣說,在行人之間進(jìn)行導(dǎo)航的機(jī)器人將能夠觀察到許多人類行為,例如合作或遺忘。行人不僅能夠移動(dòng)障礙物,而且還可以不斷地做出機(jī)器人只能部分觀察的決策。這項(xiàng)研究解決了在存在其他決策智能體的世界中運(yùn)行的智能體所面對(duì)的避免碰撞問題,特別是考慮到機(jī)器人—行人領(lǐng)域。分散式避免碰撞算法的一個(gè)基本問題是:智能體所知道和假定的其他智能體的信念狀態(tài)、策略和意圖是什么?如果沒有智能體之間的溝通,這些屬性不是可以直接進(jìn)行衡量的,但它們可以通過推理得到。
圖1:機(jī)器人在行人之間進(jìn)行導(dǎo)航。機(jī)器人使用機(jī)載傳感器來感知環(huán)境并運(yùn)行避免碰撞算法以保持安全和有效的操作。
智能體對(duì)其他智能體行為的假設(shè)將會(huì)影響其決定采取何種行動(dòng)。在最簡(jiǎn)單的情況下,智能體假設(shè)其他智能體是靜態(tài)的,并且足夠快地進(jìn)行重新規(guī)劃以避免碰撞。另一種方法是,假定其他智能體是動(dòng)態(tài)障礙,但速度保持不變。此外,智能體可以假定其智能體是決策制定者,其中,它們的速度可能會(huì)隨時(shí)根據(jù)已知或未知的策略(決策規(guī)則)進(jìn)行改變。即使機(jī)器人知道行人的決策規(guī)則,但因?yàn)槠渌悄荏w的意圖是未知的(例如目標(biāo)目的地),所以也不可能完全預(yù)測(cè)其他非溝通的決策智能體(例如行人)將如何響應(yīng)智能體所作出的決策。因此,與其試圖明確預(yù)測(cè)其他智能體的行為,最近的研究方法已經(jīng)使用強(qiáng)化學(xué)習(xí)(RL)來對(duì)智能體之間復(fù)雜的相互作用和協(xié)作進(jìn)行建模。
圖2:LSTM展開以顯示每個(gè)輸入。在每個(gè)決策步驟中,智能體將一個(gè)可觀察的狀態(tài)向量,即每個(gè)附近的智能體,依次送入LSTM單元。LSTM單元將相關(guān)信息存儲(chǔ)在隱藏狀態(tài)中,hi。 最終隱藏狀態(tài)hn,將其他智能體的整個(gè)狀態(tài)編碼成固定長(zhǎng)度的向量,然后饋送到網(wǎng)絡(luò)的前饋部分。智能體的順序是通過減少到自我智能體的距離來進(jìn)行排序的,以便最近的智能體對(duì)hn有近因效應(yīng)(recent effect)。
雖然基于學(xué)習(xí)的方法已被證明在這個(gè)領(lǐng)域內(nèi)具有良好的性能表現(xiàn),但現(xiàn)有方法對(duì)其他智能體,如同質(zhì)性或短時(shí)間尺度上的特定運(yùn)動(dòng)模型做了細(xì)微的假設(shè)。在這項(xiàng)研究中,我們對(duì)以往的研究方法進(jìn)行了擴(kuò)展以學(xué)習(xí)避免碰撞策略,而不假設(shè)其他智能體遵循任何特定的行為模型。
圖3:網(wǎng)絡(luò)架構(gòu)。附近智能體的的可觀察狀態(tài)被按順序饋送到LSTM中。
避免碰撞的另一項(xiàng)關(guān)鍵挑戰(zhàn)是環(huán)境中其他智能體的數(shù)量有所不同,而在這一領(lǐng)域中使用的前饋神經(jīng)網(wǎng)絡(luò)需要固定維度的輸入?,F(xiàn)有的策略明確了網(wǎng)絡(luò)可觀察到的智能體的最大數(shù)量,或使用原始傳感器數(shù)據(jù)作為輸入。本次研究采用自然語言處理的思想,通過在網(wǎng)絡(luò)輸入端使用長(zhǎng)短期記憶網(wǎng)路(LSTM)單元,將現(xiàn)實(shí)世界中不同的大小狀態(tài)(例如:其他智能體的位置)編碼成固定長(zhǎng)度的向量。這使得該算法可以根據(jù)機(jī)器人周圍任意數(shù)量的智能體,來做出相應(yīng)的決策。
本次研究的主要貢獻(xiàn)在于:
?我們對(duì)避免碰撞的算法做了擴(kuò)展,使其不必假定其他智能體的行為。
?我們提出了一種策略,使得算法能夠利用任意數(shù)量智能體的觀察結(jié)果。
?我們通過模擬結(jié)果證明了新框架的優(yōu)點(diǎn)。
?在不使用3D激光雷達(dá)的情況下,通過在行人間運(yùn)行的機(jī)器人進(jìn)行了算法演示。
目前,該軟件已經(jīng)作為開源ROS軟件包c(diǎn)adrl_ros發(fā)布。
圖4:機(jī)器人硬件。這款緊湊、低成本(<1000美元)的感測(cè)套件使用單個(gè)2D激光雷達(dá)和3個(gè)Intel RealSense R200攝像頭??倐鞲衅骱陀?jì)算組件的高度小于3英寸,為貨物留出足夠的空間。
本次研究提出了一種避免碰撞的算法—GA3C-CADRL,該算法僅通過深度強(qiáng)化學(xué)習(xí)進(jìn)行模擬訓(xùn)練,而不需要對(duì)其他智能體的動(dòng)態(tài)有所了解。此外,我們還提出了一種策略,通過在網(wǎng)絡(luò)的輸入端使用LSTM,使得算法能夠依據(jù)對(duì)任意數(shù)量的相鄰智能體的觀察結(jié)果來做出決策進(jìn)而選擇下一個(gè)動(dòng)作。隨著環(huán)境中智能體數(shù)量的增加,新方法的性能將優(yōu)于現(xiàn)有方法。研究結(jié)果表明,該算法能夠在不被明確執(zhí)行(explicity enforced)的情況下學(xué)習(xí)問題結(jié)構(gòu),并支持使用LSTM將大量智能體在現(xiàn)實(shí)世界中的狀態(tài)編碼為固定長(zhǎng)度的表征。新算法在一個(gè)小型真實(shí)機(jī)器人上成功運(yùn)行,該機(jī)器人在不使用3D激光雷達(dá)的情況下,可以在保持人類行走速度的同時(shí),在行人之間進(jìn)行導(dǎo)航。今后的研究將利用本文全新的、更為通用的公式,借助智能體的行為選擇,更為明確地研究信號(hào)意圖所帶來的影響。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28578瀏覽量
207787 -
算法
+關(guān)注
關(guān)注
23文章
4625瀏覽量
93129 -
導(dǎo)航
+關(guān)注
關(guān)注
7文章
532瀏覽量
42480 -
激光雷達(dá)
+關(guān)注
關(guān)注
968文章
4003瀏覽量
190164
原文標(biāo)題:MIT提出使用「深度強(qiáng)化學(xué)習(xí)」幫助智能體在運(yùn)動(dòng)中做出「動(dòng)作決策」
文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論