多Agent 深度強化學習綜述
來源:《自動化學報》,作者梁星星等
摘 要?近年來,深度強化學習(Deep reinforcement learning,DRL) 在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力,深度強化學習已經(jīng)成為實現(xiàn)人工智能頗有前景的學習范式.然而,深度強化學習在多Agent 系統(tǒng)的研究與應用中,仍存在諸多困難和挑戰(zhàn),以StarCraft II 為代表的部分觀測環(huán)境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q 網(wǎng)絡、深度策略梯度算法等為代表的深度強化學習算法和相關(guān)技術(shù).同時,從多Agent 深度強化學習中通信過程的角度對現(xiàn)有的多Agent 深度強化學習算法進行歸納,將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3 種主流形式.從訓練架構(gòu)、樣本增強、魯棒性以及對手建模等方面探討了多Agent 深度強化學習中的一些關(guān)鍵問題,并分析了多Agent 深度強化學習的研究熱點和發(fā)展前景.
關(guān)鍵詞?多Agent 系統(tǒng),深度學習,深度強化學習,通用人工智能
強化學習(Reinforcement learning,RL) 是機器學習的一個子領(lǐng)域,學習如何將場景(環(huán)境狀態(tài))映射到動作的策略,以獲取能夠反映任務目標的最大數(shù)值型獎賞信號,即在給定的環(huán)境狀態(tài)下,決策選擇何種動作去改變環(huán)境,使得獲得的收益最大[1].同監(jiān)督式的機器學習過程不同,在強化學習過程中Agent1不被告知應該采用哪個動作,而是通過不斷與環(huán)境交互,從而試錯學習到當前任務最優(yōu)或較優(yōu)的策略.這一學習范式能夠有效地解決在自然科學、社會科學以及工程應用等領(lǐng)域中存在的序貫決策問題.在強化學習的發(fā)展歷史中,強化學習和神經(jīng)網(wǎng)絡的結(jié)合已有較長的歷史[2],但是在復雜序列決策問題中始終沒有顯著的突破.然而,隨著深度學習(Deep learning,DL) 在復雜數(shù)據(jù)驅(qū)動任務中展現(xiàn)出的卓越性能[3-4],一種融合了深度學習強大的特征表示能力和強化學習高效策略搜索能力的學習范式-深度強化學習(Deep reinforcement learning,DRL) 逐漸引起學者的廣泛關(guān)注,DRL 是將DL 引入到RL,將深度神經(jīng)網(wǎng)絡引入到RL 的值函數(shù)、策略函數(shù)或者環(huán)境模型的參數(shù)估計中.DRL 在游戲、機器人、自然語言處理等問題中,取得了令人矚目的成果[5-12].AlphaGo 的主要貢獻者David Silver 更是將現(xiàn)代人工智能定義為RL+DL[13],即DRL 才是人工智能的理想范式[14].趙冬斌等[7]?認為人工智能將會是各國競相爭奪的下一科技高地.
伴隨著DRL 在一些復雜單Agent 任務中的有效應用,人們又將DRL 的研究成果轉(zhuǎn)移到了多Agent 系統(tǒng)(Multi-agent system,MAS) 的應用中,以期獲得同樣的突破.MAS 由一組利用傳感器感知共享環(huán)境的自治、交互的Agent 組成,每個Agent獨立地感知環(huán)境,根據(jù)個人目標采取行動,進而改變環(huán)境[15].在現(xiàn)實世界中,存在許多MAS 的實例,例如資源調(diào)度管理[16]、擁塞處理[17-19]、通信傳輸[20]、自動駕駛[21]、集群規(guī)劃[22-25]?等.
多Agent DRL (Multi-agent DRL,MADRL)是DRL 在MAS 中應用的研究分支,理論基礎(chǔ)源于DRL.雖然將DRL 應用于MAS 中有著許多研究,但據(jù)我們所知,尚沒有關(guān)于多Agent DRL 研究的綜述性報告,趙冬斌等[7]?對DRL 以及圍棋的發(fā)展進行了綜述,但其出發(fā)點、綜述角度以及內(nèi)容安排與本文有較大不同,如表1 所示.本文在對近些年國內(nèi)外的研究現(xiàn)狀進行分析與研究后,從MADRL 設(shè)計與實踐的角度出發(fā),對這一領(lǐng)域進行歸納總結(jié).
本文首先對DRL 進行基本的介紹,從策略表現(xiàn)的角度對當前DRL 的兩個主要方向,即深度Q 網(wǎng)絡和深度策略梯度的發(fā)展進行了描述.在第2 節(jié),我們首先分析了DRL 與MAS 的關(guān)系,描述了DRL與MAS 結(jié)合的優(yōu)勢與挑戰(zhàn); 同時我們利用部分可觀測的馬爾科夫決策過程對MADRL 問題進行了模型設(shè)計,用以表達MAS 的數(shù)學過程; 之后,根據(jù)當前DRL 的實現(xiàn)結(jié)構(gòu)以及多Agent 在DRL 實現(xiàn)中通信過程的發(fā)生階段,將現(xiàn)有MADRL 劃分為全通信集中決策、全通信自主決策以及欠通信自主決策等三類,對每類決策架構(gòu)的當前研究現(xiàn)狀進行討論分析,對面向多Agent 學習的開放訓練平臺進行介紹; 在第3 節(jié),針對現(xiàn)有MADRL 仍面臨的一些關(guān)鍵問題,從MADRL 的學習訓練框架、樣本增強、魯棒性研究以及對手建模等方面進行研究,提出了當前MADRL 可能發(fā)展的方向; 在第4 節(jié),對全文進行總結(jié).
1 深度強化學習簡介
深度強化學習的學習框架是20 世紀90 年代提出的強化學習,由強化學習與深度學習結(jié)合發(fā)展而來,是機器學習的重要分支.在這一學習范式中,Agent 通過與環(huán)境的交互,不斷調(diào)整策略,進而實現(xiàn)最大化累計獎賞值的目標.強化學習利用馬爾科夫決策過程(Markov decision process,MDP) 對序貫決策問題進行數(shù)學定義.
定義1 (馬爾科夫決策過程).?MDP 由一個五元組〈S,A,R,T,γ〉?定義,其中,S?表示由有限狀態(tài)集合組成的環(huán)境;A?表示可采取的一組有限動作集;狀態(tài)轉(zhuǎn)移函數(shù)T?:S×A →Δ(S) 表示將某一狀態(tài)-動作對映射到可能的后繼狀態(tài)的概率分布,Δ(S) 表示狀態(tài)全集的概率分布,對于狀態(tài)s,s′∈S?以及a∈A,函數(shù)T?確定了采取動作a?后,環(huán)境由狀態(tài)s?轉(zhuǎn)移到狀態(tài)s′?的概率; 獎賞函數(shù)R(s,a,s′) 定義了狀態(tài)轉(zhuǎn)移獲得的立即獎賞;γ?是折扣因子,代表長期獎賞與立即獎賞之間的權(quán)衡.
表1 與已發(fā)表相關(guān)論文的研究異同
Table 1 Research′s similarities and differences
與一般的MDP 不同,面向強化學習的MDP中包含感知函數(shù)Z?:s →z,如圖1 所示.在完全觀測環(huán)境下,Agent 獲取完全真實的環(huán)境狀態(tài),即z=s?(在對單Agent 討論時,真實觀測和真實狀態(tài)通常不予區(qū)分).在學習過程中,RL 中的Agent在多個離散時間步同環(huán)境進行交互,在時間步t,Agent 從環(huán)境中接收狀態(tài)空間S?中的狀態(tài)st,根據(jù)策略π(at|st),從可選動作空間A?中選擇動作at執(zhí)行,作用于環(huán)境,環(huán)境根據(jù)自身動態(tài)性(獎賞函數(shù)R(s,a,s′) 和狀態(tài)轉(zhuǎn)移函數(shù)T=P(st+1|st,at)),轉(zhuǎn)移到下一狀態(tài)st+1,并返回一個標量的獎賞值rt+1(獎賞值是針對下一時刻的獎賞,因而下標是t+1).當環(huán)境所處的狀態(tài)為終止狀態(tài)或交互達到最大時間步,一次試驗結(jié)束,進入下一次試驗.返回值Rt=
是一個帶折扣γ ∈(0,1]的累計獎賞值.Agent 的目標是最大化每個狀態(tài)值的累積獎賞期望值,即
圖1 MDP 示意圖
Fig.1 Diagram of MDP
經(jīng)典的強化學習策略學習方法包括了表格法(Tabular solution methods) 和近似法(Approximate solution methods).當求解問題的狀態(tài)空間和動作空間規(guī)模較小時,往往采用基于表格法的強化學習.表格法將全部的狀態(tài)值V(s) 或者狀態(tài)-動作值Q(s,a) 存入到一個帶索引的表格中,決策時按指定索引查詢狀態(tài)或狀態(tài)-動作值,并根據(jù)貪婪原則選擇動作.在更新過程中,依據(jù)一次試驗的結(jié)果,按索引對參與的狀態(tài)/狀態(tài)-動作值以及相關(guān)的狀態(tài)-動作值進行更新.在現(xiàn)實世界中,我們以期解決的問題的狀態(tài)/動作空間是連續(xù)且龐大的[1].在這種情況下,表格法由于容量有限,很難對所有值進行存儲,因而在實際操作中應用范圍較窄,難以進行擴展.為了降低計算資源和存儲資源的開銷以及提高決策效率,我們需要通過近似的方法對狀態(tài)/狀態(tài)-動作值進行估計.這類算法的應用場景更為廣泛,是當前強化學習研究的主要趨勢.在近似法強化學習中,根據(jù)學習目的以及選擇動作的依據(jù),即是否利用狀態(tài)值/狀態(tài)-動作值函數(shù)的策略貪婪地選擇動作,分為兩類:函數(shù)近似方法和策略梯度方法.在文獻[7] 中的第2 節(jié)中,對上述方法進行了概述,本文不再贅述.
與基本的強化學習方法相比,DRL 將深度神經(jīng)網(wǎng)絡作為函數(shù)近似和策略梯度的近似函數(shù).雖然使用深度神經(jīng)網(wǎng)絡解決強化學習問題缺乏較好的理論保證,但深度神經(jīng)網(wǎng)絡的強大表現(xiàn)力使得DRL 的結(jié)果遠超預期.在DRL 中,DL 同函數(shù)近似結(jié)合發(fā)展成為了深度Q 學習,而策略梯度則發(fā)展為深度策略梯度.
1.1 深度Q 學習及其發(fā)展
在深度Q 網(wǎng)絡(Deep Q-network,DQN)[6,26]提出之前,強化學習與神經(jīng)網(wǎng)絡(Neural network,NN) 的結(jié)合遭受著不穩(wěn)定和發(fā)散等問題的困擾.DQN 做了3 處改進,使用經(jīng)歷重放和目標網(wǎng)絡穩(wěn)定基于DL 的近似動作值函數(shù); 使用端到端方法,利用卷積神經(jīng)網(wǎng)絡(Convolutional neural network,CNN) 將原始圖片和游戲得分作為輸入,使模型僅需較少的領(lǐng)域知識; 訓練了可變的網(wǎng)絡,其結(jié)果在多個任務中表現(xiàn)良好,超越人類專業(yè)玩家[14],如圖2所示,利用最近的4 幀視頻圖片作為狀態(tài)的描述,通過兩層卷積層,一層全連接層輸出Agent 可選動作的值估計,采用ε?貪婪選擇執(zhí)行動作.DQN 的網(wǎng)絡參數(shù)更新方式為
其中,Q(st,at;θt) 表示t?時刻,狀態(tài)-動作值估計;
rt+1+γmaxaQ(st+1,a;θ-) 是作為臨時的目標Q 值,用于穩(wěn)定神經(jīng)網(wǎng)絡的學習,θ-?表示目標網(wǎng)絡的參數(shù),γ?表示獎賞的折扣率;θt?表示正在同環(huán)境交互的網(wǎng)絡的參數(shù),α?表示神經(jīng)網(wǎng)絡的學習率.
標準Q 學習利用max 操作符使得目標值過高估計,Van Hasselt 等[27]?提出了Double DQN 用于平衡值估計.在利用時序差分(Temporal difference,TD) 算法對目標Q 值進行更新時,后繼狀態(tài)的動作選擇來自于當前網(wǎng)絡Q,而評估則來自于目標網(wǎng)絡
將式(1) 中的
替換為
圖2 DQN 架構(gòu)
Fig.2 Framework of DQN
為了消除強化學習轉(zhuǎn)移樣本間的相關(guān)性,DQN使用經(jīng)歷重放機制,即在線存儲和均勻采樣早期交互的經(jīng)歷對神經(jīng)網(wǎng)絡進行訓練.然而均勻采樣方法忽略了經(jīng)歷的重要性,Schaul 等[28]?提出了優(yōu)先經(jīng)歷重放,利用TD error 對經(jīng)歷的重要性進行衡量,對重要性靠前的經(jīng)歷重放多次,進而提高學習效率.
此外,在DQN 的模型結(jié)構(gòu)方面,也有著較大的改進.Wang 等[29]?設(shè)計了競爭網(wǎng)絡結(jié)構(gòu)(Dueling network),在Q?網(wǎng)絡輸出層的前一隱藏層輸出兩個部分,一部分估計了狀態(tài)值函數(shù)V(s),另一部分估計了相關(guān)動作的優(yōu)勢函數(shù)A(s,a),在輸出層將二者相加進而估計動作值函數(shù)Q(s,a)=V(s)+A(s,a).這一結(jié)構(gòu)使得Agent 在策略評估過程中能夠更快地做出正確的動作.Hausknecht 等[30]?將循環(huán)神經(jīng)網(wǎng)絡(Recurrent neural network,RNN) 引入DQN中,提出了深度循環(huán)Q 網(wǎng)絡(Deep recurrent Qnetwork,DRQN) 模型,在部分可觀測的強化學習任務中,性能超越了標準DQN.Sorokin 等[31]?提出了基于軟硬注意力機制的DQN,使用深度注意力RNN 對同任務相關(guān)的單元進行了重點關(guān)注.Hessel等[32]?對現(xiàn)有DRL 中的6 種擴展DQN 算法進行了比較,根據(jù)各改進對性能提升的貢獻,提出了集成多種最優(yōu)改進的組合版Rainbow 算法.Srouji 等[33]提出結(jié)構(gòu)控制網(wǎng)絡(Structured control net,SCN),將深度神經(jīng)網(wǎng)絡分解成為兩部分:線性控制模塊和非線性控制模塊,然后分別對獲得的編碼進行處理,并將結(jié)果進行加和,非線性控制模塊進行全局控制而線性模塊對其進行補充.
1.2 深度策略梯度及其發(fā)展
策略是將狀態(tài)空間映射到動作空間的函數(shù)或者分布,策略優(yōu)化的目標是尋找最優(yōu)的策略映射.DQN 算法主要應用于離散動作的空間任務,面對連續(xù)動作空間的任務,基于策略梯度的DRL 算法能獲得更好的決策效果.
連續(xù)動作空間的策略梯度算法分為隨機策略梯度算法(Stochastic policy gradient,SPG)[1]?和深度確定策略梯度算法(Deep deterministic policy gradient,DDPG)[34-35]?.
SPG 假設(shè)在連續(xù)控制問題研究中,策略選擇具有隨機性,服從某種分布(如高斯分布),在策略執(zhí)行過程中依概率進行動作選擇.SPG 計算式為πθ(a|s)=P[a|s,θ],表示在狀態(tài)為s?時,動作符合參數(shù)為θ?的概率分布,如高斯分布πθ(a|s)=
表示Agent 采取的動作服從均值為μ(s,θ)、方差為σ(s,θ)2?的正態(tài)分布.在SPG 算法中,即使在相同的狀態(tài),每次所采取的動作也可能是不同的.該算法的梯度計算為
其中,τ?表示試驗過程,τ={s0,a0,r1,s1,a1,r2,···,sT-1,aT-1,rT,sT}?表示一次試驗過程中每個時間步經(jīng)歷的狀態(tài)、采取的動作以及獲得的獎賞;R(τ)=
為試驗過程中初始狀態(tài)的累積獎賞.
DDPG 算法則假設(shè)策略生成的動作是確定的,策略梯度的求解不需要在動作空間采樣積分.與SPG 的策略表現(xiàn)度量η(θ)=E[Rt] 不同,DDPG的策略表現(xiàn)度量為η(θ)=Q(s,a),如果策略是最優(yōu)的,則狀態(tài)-動作值是最大的.DDPG 計算式為a=μθ(s),表示在狀態(tài)s?下動作的取值.在相同策略(即函數(shù)參數(shù)相同) 的情況下,同一狀態(tài)下動作的選擇是唯一的.DDPG 算法的梯度計算式為
通過Q 函數(shù)直接對策略進行調(diào)整,向著梯度上升的方向?qū)Σ呗赃M行更新.
廣義上,DDPG 算法是SPG 的特例,當SPG算法中的方差σ →0 時,SPG 將會收斂到DDPG.SPG 算法的輸入需要狀態(tài)和動作,而DDPG 算法的輸入僅依靠狀態(tài)空間,且當動作空間維度較高時,DDPG 算法的學習效率優(yōu)于SPG 算法.
與DQN 采用的經(jīng)歷重放機制不同,深度策略梯度采用異步優(yōu)勢Actor-critic (AC) 框架(Asynchronous advantage actor-critic,A3C)[36],如圖3所示.利用CPU 多線程的功能異步執(zhí)行多個仿真過程,這一并行訓練方法打破了訓練樣本間的相關(guān)性.相比于傳統(tǒng)AC 算法,基于多線程并行訓練的A3C 算法,結(jié)合優(yōu)勢函數(shù)訓練神經(jīng)網(wǎng)絡,大幅度提升AC 算法的學習效率.此外,A3C 使用經(jīng)過tmax步的多步獎賞信號更新值函數(shù)網(wǎng)絡-Critic 網(wǎng)絡,并利用優(yōu)勢函數(shù)對Actor 網(wǎng)絡進行更新,降低了值函數(shù)估計和策略梯度的方差.在A3C 的結(jié)構(gòu)基礎(chǔ)上,Babaeizadeh 等[37]?提出了CPU 和GPU 混合架構(gòu)的GPU-A3C (GA3C),引入了隊列系統(tǒng)和動態(tài)調(diào)度策略,有效利用了GPU 的計算能力,大幅提升了A3C 的訓練速度.Jaderberg 等[38]?提出了無監(jiān)督強化輔助學習(Unsupervised reinforcement and auxiliary learning,UNREAL) 算法,在訓練A3C的過程中,兼顧訓練兩類輔助任務來對算法進行改進,一類是包括像素控制和隱藏層激活控制的控制任務,另一類是回饋預測任務.Wang 等[39]?結(jié)合長短時記憶網(wǎng)絡(Long short-term memory,LSTM),提出了在不同任務間具有良好的泛化能力的堆棧LSTM-A3C 算法.
圖3 A3C 框架
Fig.3 Framework of A3C
在非線性優(yōu)化問題中,梯度的求解相對容易,但合適的優(yōu)化步長困擾著函數(shù)優(yōu)化的速率.早期強化學習研究設(shè)置步長退火因子,隨著迭代次數(shù)的增加,逐步減小步長.在強化學習任務中,大多數(shù)的策略梯度算法難以選擇合適的梯度更新步長,使得NN 訓練處于振蕩不穩(wěn)定的狀態(tài).Schulman等[40]?提出了可信域策略優(yōu)化(Trust region policy optimization,TRPO) 處理隨機策略的訓練過程,在訓練中定義了新策略與舊策略的KL 散度,要求狀態(tài)空間中的每個點的KL 散度有界限,即
KL[πθold(·|st),πθ(·|st)]]≤δ,得到了代理優(yōu)化目標
利用非線性約束極值方法將代理優(yōu)化目標轉(zhuǎn)化為
進而保證策略優(yōu)化過程穩(wěn)定提升,同時證明了期望獎賞呈單調(diào)性增長.在此基礎(chǔ)上,該團隊繼續(xù)提出了基于優(yōu)勢函數(shù)加權(quán)估計的廣義優(yōu)勢估計方法(Generalized advantage estimation,GAE),用以減少策略梯度估計方差[18].ACKTR[41]?以Actorcritic 框架為基礎(chǔ),引入TRPO 使算法穩(wěn)定性得到保證,然后加上Kronecker 因子分解以提升樣本的利用效率并使模型的可擴展性得到加強,相比于TRPO 在數(shù)據(jù)利用率和訓練魯棒性上都有所提升,訓練效率更高.Wang 等[42]?汲取其他DRL 算法的優(yōu)勢,提出了基于經(jīng)驗回放的Actor-critic 算法(Actor-critic with experience replay,ACER),采用n-step 的TD 估計,利用偏差修正的截斷重要度權(quán)重,以及后驗TRPO 對網(wǎng)絡參數(shù)更新,提升了算法性能.TRPO 算法使用二階優(yōu)化算法獲得海塞矩陣,計算較為復雜,Schulman 等[43]?進一步提出了僅使用一階優(yōu)化的近端策略優(yōu)化(Proximal policy optimization,PPO) 算法,對代理目標函數(shù)簡單限定了約束,簡化了實現(xiàn)和調(diào)參過程,性能上優(yōu)于現(xiàn)階段其他策略梯度算法,表現(xiàn)出了同TRPO 算法相當?shù)姆€(wěn)定性和可靠性.
2 MADRL 研究
本節(jié)首先對DRL 同MAS 間的關(guān)系進行討論,分析DRL 與MAS 結(jié)合帶來的優(yōu)勢以及挑戰(zhàn).之后,考慮到單Agent 強化學習算法中環(huán)境的馬爾科夫?qū)傩栽贛AS 中并不適用,標準的強化學習模型及算法無法刻畫出環(huán)境的動態(tài)性,我們對多Agent 的環(huán)境動態(tài)性以及學習過程進行描述與定義.在這一模型的描述基礎(chǔ)上,我們根據(jù)DRL 中的神經(jīng)網(wǎng)絡內(nèi)部各Agent 的信息交互發(fā)生階段(對外則表現(xiàn)為決策架構(gòu)形式),對當下的MADRL 進行分類,對每一個類型的現(xiàn)有研究進行分析.最后,為方便相關(guān)學者的研究,給出了現(xiàn)有公開可用的多Agent 實驗平臺介紹.
2.1 DRL 與MAS 的關(guān)系
多Agent 任務的復雜性使得預置的Agent 策略難以適應多變的環(huán)境,Agent 必須依靠自身學習去尋找解決方案,逐步提升Agent 或者整個多Agent系統(tǒng)的性能.RL 算法便于理解,操作簡單,為Agent在線學習提供了一種便于接受的范式.在DRL 之前,將RL 應用于MAS 系統(tǒng)已有諸多研究綜述.早在2005 年,Panait 等[44]?就對協(xié)作多Agent 學習算法進行了廣泛的分析,并將其分為兩類:單個學習者(團體學習) 和多個學習者(并發(fā)學習).Shoham等[45]?對多Agent 學習進行了一般性綜述,提出了一些有趣的基礎(chǔ)問題,并指出了該領(lǐng)域發(fā)展的5 個分支.Tuyls 等[46]?呈現(xiàn)了關(guān)于人工智能(Artificial intelligence,AI) 問題的多Agent 學習鳥瞰圖,描述了領(lǐng)域內(nèi)所取得的里程碑成就,并給出了當時的開放挑戰(zhàn).Matignon 等[47]?側(cè)重于協(xié)作隨機博弈的獨立強化學習算法的發(fā)展.Bu?soniu 等[48]?對多Agent強化學習進行了全面的調(diào)查,他們提出了多Agent強化學習的算法分類和相關(guān)屬性.Crandall 等[49]?對兩人重復博弈的算法進行了概述,指出了多Agent問題的3 個屬性:安全性、合作性和折衷性,他們認為這些屬性在各種不同的游戲中扮演著非常重要角色.M¨uller 等[50]?提出了一個面向應用的多Agent概述,重點研究了使用或基于MAS 的應用程序.Weiss[51]?在其關(guān)于多Agent 系統(tǒng)專著的第10 章對多Agent 學習算法進行了描述,并對這些算法進行了分類.Bloembergen 等[52]?對演化博弈論的相關(guān)研究進行了概述,分析了多Agent 學習與演化博弈論間的關(guān)系.Hernandez-Leal 等[53]?從處理MAS 非平穩(wěn)性問題的角度出發(fā),將現(xiàn)有方法分為忽略、遺忘、響應目標對手、學習對手模型以及心智理論等5類.但是這些研究難以處理高維連續(xù)狀態(tài)空間與連續(xù)動作空間的環(huán)境,必須對環(huán)境特征進行抽取與人為定義,多個模塊的聯(lián)合進一步提升了MAS 的求解難度.而且上述綜述都是從多Agent 研究的某一角度出發(fā),研究較早,關(guān)注點停留在DRL 興起前的研究算法,沒有對DRL 崛起后的多Agent 系統(tǒng)進行研究.DRL 提供了一種端到端(End to end) 的學習方式,這一學習方式結(jié)合了深度神經(jīng)網(wǎng)絡的高容量特性,RL 決策高維連續(xù)空間的能力以及現(xiàn)有的硬件計算能力,克服了早期MAS 將任務分解的學習方式,降低了任務的求解復雜度,大幅提高了決策的穩(wěn)定性,為解決MAS 提供了一種新的思路.
此外,DRL 和MAS 的特性在一些方面可以優(yōu)勢互補.DRL 訓練往往需要大量樣本進行訓練,而MAS 系統(tǒng)的天生并發(fā)性,使得多個Agent 可以并發(fā)產(chǎn)生大量樣本,大大提升了樣本數(shù)量,加速學習過程以及達到更好的學習效果; MAS 的這一并發(fā)性,又使得多Agent 在分散架構(gòu)下能夠充分使用并行計算,提升了DRL 的學習效率; 在MAS 中,新來的Agent 能夠接替早些時候的Agent,這使得MADRL 相對于single-agent DRL 具有更強的魯棒性.現(xiàn)有的MAS 難以處理高維連續(xù)的環(huán)境,而DRL 能夠處理高維度的輸入,學習控制復雜的動作;神經(jīng)網(wǎng)絡的內(nèi)部結(jié)構(gòu),又可以解決MAS 中的通信問題,克服人為定義通信方式的不足問題.MAS 同DRL 的結(jié)合,在帶來上述好處的同時,也遭受著自身的以及結(jié)合帶來的問題:隨著Agent 數(shù)量的增加,決策輸出的動作維度越來越大,動作空間呈現(xiàn)指數(shù)增長的趨勢; 相對于單個Agent,多Agent 任務更加難以制定學習目標,單個Agent 學習的結(jié)果受全體Agent 的影響; 多Agent 的同步學習,使得環(huán)境產(chǎn)生了非平穩(wěn)性,打破了DRL 學習的基本前提; 多Agent 中的探索,更容易使得策略的學習陷入惡性循環(huán),難以獲得良好的策略.
2.2 多Agent 學習模型
多Agent 集中決策過程獲取全局觀測并輸出全局聯(lián)合動作的方式滿足MDP 屬性,同單Agent 的強化學習方法決策過程類似,可以應用面向強化學習的MDP 對其進行建模,在本節(jié)對這一數(shù)學過程進行了描述,但這一方式在MAS 中應用有許多缺點,在第2.6 節(jié)中將進行討論.多Agent 自主決策過程可以使用隨機博弈理論進行描述,正則形式的博弈是MDP 在多Agent 的環(huán)境中的泛化形式,定義如下.
定義2 (正則形式的博弈,Normalform game).?有限參與者的正則形式的博弈由三元組〈N,A,u〉?組成,其中N?表示I?個Agent 的有限集合,i?表示Agent 的索引;A=A1×···×AI,其中,Ai?表示單個Agent 的有限動作集合,向量a=(a1,···,aI)∈A?表示所有Agent 的一次動作集合;u=(u1,···,uI),ui?:
表示單個Agent 的真實效用或者收益函數(shù).
正則形式的博弈描述了多Agent 的一次決策過程,但沒有對環(huán)境狀態(tài)進行明確定義,不能夠描述多Agent 的環(huán)境特征以及動態(tài)變化特性,如StarCraft II,自動駕駛,多Agent 對抗等非平穩(wěn)的、不完全的、部分可觀測的環(huán)境特性.在現(xiàn)有強化學習以及隨機博弈理論的啟發(fā)下,自主決策的多Agent 決策過程可以建模為部分可觀測的MDP,定義如下(過程如圖4 所示).
定義3 (部分可觀測馬爾科夫決策過程,Partially observable MDP,POMDP).?面向多Agent 的POMDP 可由八元組G=〈N,S,A,R,T,γ,Z,O〉?定義.在POMDPG?中,N?表示參與決策Agent 的集合,i ∈N ≡{1,···,n}?表示單個Agent;s ∈S?表示環(huán)境的真實狀態(tài);aaa ∈AAA ≡An?表示參與決策的Agent 的動作集合,ai∈Ai?表示單個Agent 執(zhí)行的動作;T?:S×A×S →[0,1] 表示環(huán)境狀態(tài)轉(zhuǎn)移函數(shù),在狀態(tài)s?下,執(zhí)行聯(lián)合動作a,轉(zhuǎn)移到狀態(tài)s′?的概率,即P(s′|s,a); 多Agent 獎賞函數(shù)R:S×A×S →R,在狀態(tài)s?下,執(zhí)行聯(lián)合動作a,轉(zhuǎn)移到狀態(tài)s′?獲得的立即獎賞r(s,a,s′);z ∈Z≡Zn?表示Agent 對環(huán)境的部分帶噪聲(不完全信息) 觀測,zi∈Zi?是單個Agent 對環(huán)境的觀測;O?:S × N →Z 表示環(huán)境狀態(tài)s?下,單個Agent 的觀測狀態(tài)函數(shù)O(s,i)=zi;γ?是折扣因子,代表長期獎賞與立即獎賞之間的權(quán)衡.
在多Agent 環(huán)境中,Agent 利用自身的動作-觀測歷史τi∈Ti=(Zi×Ai)*?以及當前時間步的觀測zi,決策Agent 采取動作ai?的概率πi(ai|τi,zi) :Ti×Ui→[0,1],執(zhí)行后將該動作-觀測添加到歷史存儲中τi←τi×(zi,ai).
在POMDP 中,單個Agent 的狀態(tài)-動作值函數(shù)Q(zi,ai) 的貝爾曼方程表示為
a-i?表示狀態(tài)s?下,除Agenti?外的Agent 動作集合;p(s|zi) 表示Agent 當前局部觀測對應的全局狀態(tài)的映射關(guān)系;π-i(a-i|τ-i,z-i))) 表示對手Agent 在該全局狀態(tài)下的聯(lián)合動作概率;P(s′|s,a)表示全局狀態(tài)和聯(lián)合動作到下一狀態(tài)的轉(zhuǎn)移函數(shù);r(s,a,s′) 表示該全局轉(zhuǎn)移下獲得的全局獎賞;
表示該后繼狀態(tài)下對手Agent 的聯(lián)合觀測概率;
表示該后繼狀態(tài)與對手聯(lián)合觀測下,Agent 局部觀測狀態(tài)的概率.
圖4 面向多Agent 的POMDP Fig.4 Multi-agent-oriented POMDP
2.3 MADRL 分類
針對目前DRL 在多Agent 學習的最新研究進展,根據(jù)DRL 中的神經(jīng)網(wǎng)絡內(nèi)部各Agent 的信息交互發(fā)生階段,本文將現(xiàn)有MADRL 算法分為以下3 類:
1) 全通信集中決策架構(gòu).該決策架構(gòu)中,多Agent 間的通信過程發(fā)生在神經(jīng)網(wǎng)絡內(nèi)部,多Agent通過自我學習通信協(xié)議,決策單元接收各Agent 處理后的局部觀測信息,對觀測信息進行融合,獲得全局信息表征,進而集中決策產(chǎn)生聯(lián)合動作,以通信的方式指導單Agent 的動作,如圖5(a) 所示.全通信集中決策架構(gòu)通過信息融合,感知全局信息,降低了環(huán)境噪聲帶來的信息損失,此外,通過集中決策方式,有力地對單Agent 的動作進行了協(xié)調(diào),使得多Agent 能夠按照一致的目標開展行動.但這一架構(gòu)對系統(tǒng)的時效性要求較高,并對通信系統(tǒng)有很大的依賴,適用于通信時效性要求較低的強化學習場景或一臺PC 對多個Agent 控制的任務.
2) 全通信自主決策架構(gòu).該決策架構(gòu)中,多Agent 間的通信過程發(fā)生在神經(jīng)網(wǎng)絡之前,單個Agent 利用自組網(wǎng)通信拓撲,接收對手2?Agent 的局部觀測信息以及歷史動作,采用嵌入式的方法對接收信息進行融合,并結(jié)合自身的觀測信息(以及對對手的推斷信息) 自主決策,進而協(xié)作的完成任務,如圖5(b) 所示.全通信自主決策架構(gòu)中各Agent 通過通信獲得環(huán)境的全局信息,結(jié)合對對手行為的推斷,自我學習協(xié)作的動作,涌現(xiàn)出協(xié)同能力.該架構(gòu)對Agent 間通信時效性要求相對較低,適用于具備通信條件的RL 任務.相對于全通信集中決策架構(gòu),全通信自主決策架構(gòu)在現(xiàn)實中應用更加廣泛.
3) 欠通信自主決策架構(gòu).在該決策架構(gòu)中,多采用循環(huán)神經(jīng)網(wǎng)絡進行學習,代表Agent 策略的神經(jīng)網(wǎng)絡之間沒有信息交互,單Agent 依靠自我觀測的能力,獲得部分(不完全) 環(huán)境信息,結(jié)合對對手的觀測與推斷,進行自主決策,確定采取的行動,以期涌現(xiàn)出協(xié)同的聯(lián)合行為,協(xié)調(diào)一致的完成任務要求,如圖5(c) 所示.欠通信自主決策架構(gòu)僅依靠自我觀測能力,通過觀測與推斷對手行為,進行自主決策,進而涌現(xiàn)出協(xié)同能力.欠通信自主決策架構(gòu)不依賴通信,適用任一多Agent 環(huán)境.由于缺乏通信,欠通信自主決策架構(gòu)相對上述全通信決策結(jié)構(gòu),對環(huán)境的觀測是部分的、不完全的.這種部分觀測不僅包含觀測的信息有限,也包含觀測帶來的環(huán)境噪聲,受環(huán)境不確定因素的影響更大.此外,該結(jié)構(gòu)也面臨著對手策略變化帶來的環(huán)境非平穩(wěn)性問題.
2.4 全通信集中決策架構(gòu)
圖5 多Agent 決策示意圖
Fig.5 Diagram of multi-agent decision-making
早期的多Agent 集中決策架構(gòu)是關(guān)于多Agent的動作和觀測的聯(lián)合模型,將多Agent 的聯(lián)合觀測映射到聯(lián)合行動,訓練過程同單Agent 強化學習任務一致,如圖6(a) 所示.這一決策架構(gòu)將多Agent問題轉(zhuǎn)換為單Agent 問題,有效解決了Agent 數(shù)量少且固定、動作空間小等MAS 任務中的多Agent間的協(xié)同問題.但是對于Agent 數(shù)量較多、動作空間巨大的強化學習任務,這一架構(gòu)將導致聯(lián)合觀測空間s ∈S=|O1|×|O2|×···×|On|?和聯(lián)合動作空間a ∈A=|A1|×|A2|×···×|An|?隨Agent 數(shù)量增加呈指數(shù)級增長.此外,該架構(gòu)限定了任務中的Agent 的數(shù)量,不能在交互過程中擴展Agent 的數(shù)量,即便是同樣的環(huán)境,不同數(shù)量的Agent 也需要單獨訓練模型,泛化能力弱.
圖6 集中決策架構(gòu)輸出動作分類
Fig.6 Output action classification of centralized decision architecture
在現(xiàn)有的多Agent DRL 研究問題中,人們通常將聯(lián)合動作空間分解,聯(lián)合動作可以看作是每個Agent 動作的組合,聯(lián)合策略可以視作多個子策略的組合,這意味著神經(jīng)網(wǎng)絡的輸出是單個Agent的動作分布,而不是聯(lián)合動作分布,如圖6(b) 所示.這一改變使得動作空間的大小由
降為
同樣,采樣類似的方式可以對觀測空間進行分解.
在全通信集中決策架構(gòu)中,現(xiàn)有研究方法主要集中在隱藏層信息池化共享通信和雙向RNN 通信等兩種手段,通過神經(jīng)網(wǎng)絡的隱藏層間信息傳遞保證全通信條件下Agent 間的協(xié)商.
在基于隱藏層信息池化共享的決策架構(gòu)中,各Agent 通過內(nèi)部隱藏層的交互,在決策過程中進行協(xié)商,進而輸出協(xié)同的聯(lián)合動作.Sukhbaatar 等[54]提出自主學習Agent 間通信協(xié)議的方法,采用包含模塊fi?的多層架構(gòu),利用當前步的隱藏層輸出h?和計算獲得的通信輸出c?迭代地獲得下一決策所需的網(wǎng)絡輸入hK,并根據(jù)最終的網(wǎng)絡輸出q(hK) 選擇執(zhí)行動作.如圖7 所示,sj?表示Agentj?的環(huán)境狀態(tài)觀測,將所有Agent 的聯(lián)合觀測sss={s1,···,sJ}的相關(guān)狀態(tài)表征作為決策的輸入,輸出針對單個Agent 的聯(lián)合動作的結(jié)果a={a1,···,aJ}.在中間的隱藏層中,設(shè)計出自身隱藏層信息和交互隱藏層信息融合的模塊fi,每個Agent 的模塊fi?接收兩個輸入向量:上一階段傳來的隱藏狀態(tài)
以及通信向量
并輸出下一隱藏層信息
其中通信信息為
隱藏層信息為
輸出的隱藏層信息為
σ?為非線性的激活函數(shù).該算法采用平均池化
可以克服Agent 數(shù)量不定,解決MAS 中算法難以擴展Agent 數(shù)量的問題.
圖7 基于隱藏層信息池化共享的集中決策架構(gòu)
Fig.7 Centralized decision architecture based on shared pooling of hidden layers information
基于隱藏層信息池化共享通信的決策架構(gòu)人為設(shè)定通信協(xié)議,利用池化方法對信息進行整合,雖然解決了Agent 間的通信問題以及擴展問題,但針對缺乏先驗知識的任務,難以設(shè)計有效的通信協(xié)議.基于雙向RNN 通信的集中決策架構(gòu)利用雙向RNN 結(jié)構(gòu)的信息存儲特征,自學習Agent 間的通信協(xié)議,克服了通信協(xié)議設(shè)計對任務先驗知識的剛性需求.Peng 等[55]?提出了基于AC 的多Agent 雙向協(xié)作網(wǎng)絡(Bidirectionally-coordinated network,BiCNet),Actor 和critic 網(wǎng)絡均使用雙向LSTM 架構(gòu)將Agent 串聯(lián),在訓練過程中,雙向LSTM 自行學習通信協(xié)議,在輸入端利用Attention 機制從全局態(tài)勢信息中抽取每個Agent 的觀測輸入,輸出行動集合,同樣采用基于Attention 機制的雙向LSTM對動作集合進行評價.
通信協(xié)議的自我學習解決了Agent 間的信息傳遞規(guī)則,但不合適的獎賞會帶來虛假獎賞和產(chǎn)生懶惰Agent 等問題,Sunehag 等[56]?提出了全局獎賞下的值分解網(wǎng)絡,采用DQN 網(wǎng)絡結(jié)構(gòu),對每個Agent設(shè)立獨立Q 值,進而求和獲得聯(lián)合行動的Q 值.他們嘗試了RNN、Dueling Network 等多種組合,考慮了Agent 間多種通信程度,分別對全通信自主決策架構(gòu)、全通信集中決策架構(gòu)以及欠通信分自主決策架構(gòu)進行了學習框架設(shè)計,如圖8 所示.
Kong 等[57]?提出一種將集中決策同自主決策相結(jié)合的主-從多Agent RNN 學習架構(gòu),采用主-從架構(gòu),由中心Agent 指導多個真實執(zhí)行的Agent,充分利用自主決策和集中決策的優(yōu)勢,其中主Agent融合分Agent 的觀測信息并總結(jié)出指導信息,分Agent 根據(jù)指導信息并結(jié)合自身局部觀測信息做出最終動作選擇,類似于足球比賽中教練與球員間的關(guān)系.
2.5 全通信自主決策架構(gòu)
全通信集中決策架構(gòu)利用神經(jīng)網(wǎng)絡的隱藏層將各Agent 的信息進行融合,使得其必須將部分觀測信息在單一的決策主體中進行融合,集中地進行決策,而全通信自主決策架構(gòu)只需在輸入端進行通信,將信息進行本地融合,自主的完成決策過程.
Foerster 等[58]?針對預定義通信協(xié)議在部分環(huán)境中不可用的問題,提出了自適應的端到端的通信協(xié)議學習算法,將通信定義為一組動作,Agent 利用自身觀測以及對手Agent 傳遞的通信動作,采用時序RNN 架構(gòu)輸出通信和決策動作,從而達到協(xié)同行動的目的.根據(jù)通信動作的連續(xù)性,將決策網(wǎng)絡的梯度更新方式分為增強和可微兩類,如圖9 所示,圖9(a) 表示增強更新的應用架構(gòu),Agent 1 接受來自上一階段Agent 2 的通信動作
并結(jié)合自身的觀測
經(jīng)過Action select 模塊,產(chǎn)生傳遞給Agent 2 的通信動作
和對環(huán)境的動作
利用增強算法的梯度傳播的思想對動作進行更新; 圖9(b) 表示可微更新動作的應用框架,通信動作的產(chǎn)生不再通過動作選擇模塊,而是直接將神經(jīng)網(wǎng)絡的通信結(jié)果經(jīng)過離散正規(guī)化單元(discretise/regularise unit,DRU) 后不經(jīng)選擇地傳遞給下一Agent,保證通信動作具有可微性,進而對決策網(wǎng)絡進行更新.
通信動作的學習雖然有一定的研究意義,但通信動作的定義大多需要相關(guān)的領(lǐng)域知識,人們更關(guān)注在既定通信協(xié)議下或自學習通信協(xié)議下,通過本地的態(tài)勢融合感知獲得決策的結(jié)果.在既定通信協(xié)議下,Usunier 等[59]?定義了一種短期、低層次的微操強化學習任務,各Agent 將以通信的方式獲得的局部觀測進行聯(lián)合編碼,利用用于推斷的貪婪MDP,通過多階段的對手行動推理,自主產(chǎn)生協(xié)同行動,并利用零階梯度估計的后向傳播策略對行動策略進行更新.Mao 等[60]?提出了一般性的協(xié)作Actor-critic網(wǎng)絡(Actor-coordinate-critic net,ACCNet),在部分觀測的環(huán)境中從零學習Agent 間的通信協(xié)議,根據(jù)協(xié)作所處的階段,提出了AC-Cnet 架構(gòu),如圖10(b)所示.針對全通信的自主決策結(jié)構(gòu),他們設(shè)計了ACCNet 架構(gòu),對局部狀態(tài)進行嵌入編碼,之后利用預定義/自學習通信協(xié)議對所有局部狀態(tài)編碼進行聯(lián)合編碼,與待決策Agent 的局部狀態(tài)結(jié)合一同作為決策輸入,產(chǎn)生動作.
圖8 多種架構(gòu)下的值分解網(wǎng)絡
Fig.8 Value decomposition network for multiple architecture
圖9 通信流示意圖
Fig.9 Diagram of communication flow
此外,針對個體獎賞帶來的“囚徒困境”,自主決策也可采用聯(lián)合動作評估方法,對行動網(wǎng)絡進行更新.在策略執(zhí)行過程中,Agent 依靠Actor 網(wǎng)絡做出行動選擇,因而在訓練階段采用聯(lián)合動作的Critic函數(shù)對Actor 網(wǎng)絡進行學習更新,不會破壞執(zhí)行過程中的自主決策架構(gòu).Mao 等[60]?利用全局動作獎賞對策略進行評估,有效克服了個體獎賞帶來的問題.Yang 等[61]?提出平均場強化學習,利用總體或鄰近Agent 間的平均相互作用近似Agent 間的相互作用,個體的最優(yōu)策略取決于全體動態(tài),而全局動態(tài)則根據(jù)個體策略集合改變,設(shè)計了面向多Agent 的平均場Q 學習和平均場Actor-critic 算法,并分析了解的收斂性.
2.6 欠通信自主決策架構(gòu)
圖10 決策-協(xié)同-評估網(wǎng)絡架構(gòu)
Fig.10 Actor-coordinator-critic net framework
同單Agent 的強化學習不同,多Agent 自主決策強化學習任務面臨著環(huán)境非平穩(wěn)性的問題.對單個Agent 而言,對手Agent 策略的變化使得環(huán)境的狀態(tài)轉(zhuǎn)移函數(shù)隨時間變化而變化,即
環(huán)境轉(zhuǎn)移函數(shù)可表示為
其中o-i,a-i?表示Agenti?的對手聯(lián)合觀測和聯(lián)合行動.在環(huán)境轉(zhuǎn)移函數(shù)中,轉(zhuǎn)移
ai,a-i) 是平穩(wěn)的,不隨時間改變; 然而,其他Agent 的策略學習,使得聯(lián)合策略π(a-i|o-i) 發(fā)生變化,導致單個Agent 面臨的環(huán)境轉(zhuǎn)移
是非平穩(wěn)的.針對欠通信自主決策面臨的環(huán)境非平穩(wěn),Hernandez-Leal 等[53]?將早期強化學習中處理環(huán)境非平穩(wěn)問題的方法分為忽略、遺忘、響應目標對手、學習對手模型以及心智理論等五類,在此不再贅述.本文結(jié)合當前DRL 的發(fā)展特性,從經(jīng)歷重放、協(xié)作中的“囚徒困境” 以及參數(shù)共享等方面對欠通信自主決策的MAS 進行研究.
Tampuu 等[62]?開展了將DRL 應用到多Agent環(huán)境中的開拓性研究,但沒有考慮環(huán)境的非平穩(wěn)性,通過設(shè)計不同的全局獎賞函數(shù),采用兩個獨立自主的DQN 網(wǎng)絡對合作、競爭和合競等多Agent 強化學習任務進行訓練,取得了較好的效果.由于環(huán)境的非平穩(wěn)性,在自主Q 學習強化學習任務中,經(jīng)歷重放機制所存儲的經(jīng)歷不能反映當前環(huán)境的動態(tài)性.Omidshafiei 等[63]?忽略環(huán)境非平穩(wěn)問題,依舊利用經(jīng)歷重放機制,采用分散滯后深度RNN 的Q 網(wǎng)絡(Dec-HDRQNs) 架構(gòu),克服環(huán)境非平穩(wěn)帶來的值估計偏差.他們根據(jù)單Agent 的TD error 有選擇得對策略進行更新
當TD error 非負時,采用正常學習率α?更新,否則使用較小的學習率進行更新.此外,為了使得策略具有較好的泛化能力,他們采用多任務(Multi-task)對Dec-HDRQNs 的策略進行過濾.Palmer 等[64]?則將Lenient 應用到MADRL 中,隨訪問次數(shù)的增加而增大接受負TD error 的概率,并認為在實驗中先進行普通Q 學習,再進行Double Q 學習的混合Q學習有更好的學習效果.Foerster 等[65]?則針對環(huán)境非平穩(wěn)性的來源,提出了離環(huán)境下的重要性采用方法,對內(nèi)存中的經(jīng)歷進行了重用,并使用指紋法記錄環(huán)境中其余Agent 的動態(tài)變化信息,使得經(jīng)歷重放機制在多Agent 環(huán)境中依然適用,離環(huán)境下的重要度采樣損失函數(shù)定義為
其中,
表示除Agenti?外,其他Agent 在當前策略下的聯(lián)合動作產(chǎn)生概率;
表示除Agenti?外,其他Agent 聯(lián)合動作在離環(huán)境下的產(chǎn)生概率;yl?采用Q 學習的方式獲得.
受非全局獎賞的影響,多Agent 合作存在“囚徒困境” 的問題,Mao 等[60]?提出了A-CCNet 架構(gòu),如圖10(a) 所示,針對欠通信的自主決策架構(gòu),設(shè)計了不依賴通信的A-CCNet 架構(gòu),各Agent 依據(jù)局部狀態(tài)做出動作選擇,將局部的狀態(tài)-動作同對手Agent 的決策結(jié)果相結(jié)合,進行整體評價.Leibo等[66]?利用純粹的自主Q 學習方法,為每個Agent單獨訓練一套參數(shù),重點解決了社會困境中的“囚徒困境” 難題,揭示了社會困境如何影響Agent 間的合作.Facebook AI 研究室[67-68]?在DRL 中利用過往回報來調(diào)節(jié)自身行為,進而獲得較好的合作策略.Menda 等[69]?提出事件驅(qū)動的MADRL 方法,將Agent 的動作分為宏觀和一般兩類動作,宏觀動作由事件驅(qū)動,而一般動作則是自主決策,利用改進的GAE 算法對策略進行求解,允許Agent 在決策中異步執(zhí)行,克服了固定時間步混淆事件發(fā)生順序而帶來的不利影響.Lowe 等[70]?將DDPG 方法擴展到多Agent 學習,通過觀測對手過往行為對對手進行建模,同時構(gòu)建全局Critic 函數(shù)對全局狀態(tài)-自主動作進行評估,并訓練一組Agent 策略提高算法的魯棒性.
全局Critic 函數(shù)雖然克服了“囚徒困境” 問題,但對單個Agent 的Actor 網(wǎng)絡改進指導不足,不能衡量單個Agent 策略對全局Q 值的影響程度,即信用分配問題.Foerster 等[71]?提出了基于Actorcritic 的反事實多Agent (Counterfactual multiagent,COMA) 策略梯度方法,采用集中的Critic函數(shù)對聯(lián)合動作進行評估,各Agent 利用獨自的Actor 策略網(wǎng)絡進行決策.通過固定其他Agent 的行動,使用邊際法確定反事實的基線,進而確定每個Agent 的信用分配
利用獲得優(yōu)勢函數(shù)
(z,(ai,a-i) 對策略網(wǎng)絡進行增強更新,獲得的最好的實驗效果超越了集中決策模型.
共享信息已被證明可以加速強化學習任務的優(yōu)化[72],尤其是多Agent 強化學習任務.如果Agent是同質(zhì)的,則可以利用參數(shù)共享(Parameter sharing,PS) 的方式,即多個Agent 共用一套網(wǎng)絡參數(shù).在PS 機制下,Agent 在訓練中可以使用全體Agent 的仿真經(jīng)歷.此外,同樣的策略網(wǎng)絡,由于不同的Agent 接收不同的觀測狀態(tài)(也可以用相關(guān)的序號區(qū)分即便同觀測的Agent),因而Agent 間可以產(chǎn)生不同的動作.Ellowitz[72]?用強化學習方法,模擬多Agent 優(yōu)化同一任務的系統(tǒng),研究了不同Agent 密度和策略共享的影響,發(fā)現(xiàn)PS 策略減少了達到漸近行為的時間,使得漸近行為獲得較好改善.Gupta 等[73]?將策略梯度、TD error 以及AC等3 種深度強化學學習算法應用到部分可觀測的協(xié)作多Agent 環(huán)境中,在一系列離散和連續(xù)的動作空間任務中,使用基于TRPO 的PS 并發(fā)訓練模式加速了學習過程,并且驗證了循環(huán)網(wǎng)絡的效果優(yōu)于前饋網(wǎng)絡.Chu 等[74]?針對MADDPG 算法[73]?擴展性較差的問題,提出了參數(shù)共享的MADDPG 算法(PS-MADDPG),并針對不同的應用環(huán)境,提出了Actor-critic 網(wǎng)絡均共享、Actor 網(wǎng)絡共享而Critic網(wǎng)絡不共享、Actor 共享而critic 部分共享(共享的部分為公有特征抽取網(wǎng)絡,如CNN 層) 等3 種Actor-critic 共享組合架構(gòu).
2.7 多Agent 實驗平臺
強化學習過程需要不斷同環(huán)境進行交互,環(huán)境對強化學習至關(guān)重要,相關(guān)單位與個人針對多Agent 強化學習研究開發(fā)了多種訓練平臺.
DeepMind 和暴雪公司合作,開發(fā)了一個基于星際爭霸II 游戲的強化學習平臺(StarCraft II learning environment,SC2LE)[75],描述了星際爭霸II 中的觀察、行動和獎勵規(guī)范,并提供了一個基于Python 的開源的接口來與游戲引擎進行通信.除了主要的游戲地圖之外,該平臺還提供了一套專注于“星際爭霸II” 游戲的不同元素的迷你游戲.對于主要的游戲地圖,還提供了來自人類專業(yè)玩家的游戲數(shù)據(jù)的訓練數(shù)據(jù)集.另外,還給出了從這個數(shù)據(jù)訓練的神經(jīng)網(wǎng)絡的初始基線結(jié)果,以預測游戲結(jié)果和玩家動作(https://github.com/deepmind/pysc2).當前針對星際爭霸游戲的DRL 研究主要集中在單元控制的微操(Micro-management) 層面,多采用狀態(tài)間雙方血線變化作為獎賞.不同的訓練結(jié)構(gòu)對狀態(tài)有不同的表示方法,可分為單元附近狀態(tài)的局部觀測與所有單元的全局觀測.Usunier 等[59]?利用全通信自主決策架構(gòu),通過參數(shù)共享的方式訓練單個網(wǎng)絡對多個同類Agent 進行控制,使用無梯度估計對策略網(wǎng)絡進行更新,相對其他算法,該方法最多可以控制15 個單元.Peng 等[55]?利用雙向LSTM 網(wǎng)絡,搭建了全通信集中決策架構(gòu),集中的網(wǎng)絡決策輸出每個Agent 的動作,在不同尺度上具有較好的效果,學習的動作部分具有較好的可解釋性.Kong等[57]?結(jié)合了集中決策和自主決策的優(yōu)勢,采用主-從架構(gòu)的全通信集中決策架構(gòu),在十個以上單位的對抗中,超越了之前的所有算法.Foerster 等[65]?通過指紋法和重要性權(quán)重的方法,重用歷史經(jīng)歷,采用欠通信的自主決策架構(gòu)在較小的戰(zhàn)斗場景中取得了不錯的成績.在之后的研究中,Foerster 等[71]?使用了集中的Critic 和分散的Actor 架構(gòu)的Actorcritic 算法,采用反事實的基線獲得動作優(yōu)勢函數(shù),解決了多Agent 問題中的信用分配,在欠通信自主決策架構(gòu)中取得了最好的效果,而且能夠控制十個以上的單元.
上海交通大學開發(fā)了一種支持多Agent 強化學習研究和發(fā)展的MAgent 平臺[76],該平臺聚焦含成千上萬Agent 的任務和應用.在Agent 間的相互作用中,該平臺不僅能夠開展Agent 最優(yōu)策略學習的算法研究,而且能夠觀察和理解AI 社會中出現(xiàn)的個體行為和社會現(xiàn)象,包括溝通語言、領(lǐng)導力、利他主義.同時,MAgent 具有高度的可擴展性,可以在單個GPU 服務器上托管多達一百萬個代理,還為AI 研究人員提供靈活的配置,以設(shè)計他們的定制環(huán)境和Agent,該平臺給出了基于欠通信自主決策的獨立Q 學習和A2C 的基線算法(https://github.com/geek-ai/MAgent).在MAgent 平臺中,Yang 等[61]?構(gòu)建了混合合作-競爭的戰(zhàn)斗游戲,兩支包含64 個Agent 的隊伍進行對抗,每個Agent 的狀態(tài)觀測來自于全局狀態(tài)觀測,Q 值對自身動作和周圍鄰居平均動作的組合進行評估,有效的將多體問題轉(zhuǎn)換為二體問題,并使用了平均場Q 學習和平均場AC 同平臺的獨立Q 學習和A2C 基線算法進行了對比,平均場算法在勝率和累積獎賞值中遠超基線算法.Khan 等[77]?在MAgent 平臺中構(gòu)建了合作、競爭以及合競等3 種多Agent 環(huán)境,采用全通信的自主決策架構(gòu)的分布式多Agent 策略梯度算法,環(huán)境中的每個Agent 可以獲得其他Agent 的相對位置與速度、靜態(tài)障礙物的位置,在所有實驗中使用包含100 個隱藏單元的兩層全連接層對值網(wǎng)絡和策略網(wǎng)絡進行估計.所有算法同全通信集中決策的A3C 和TRPO 的基線算法進行比較,3 種環(huán)境下收斂速度明顯優(yōu)于基線算法.Chen 等[78]?提出了一種全通信自主決策下的多Agent 分散Q 學習架構(gòu),將全局觀測與聯(lián)合動作進行分解,利用分解的Agent 的值函數(shù)和剩余Agent 的聯(lián)合值函數(shù)獲得當前狀態(tài)的值函數(shù),采用Duling 架構(gòu)的設(shè)計思想,采用分解Agent 的Q 值函數(shù)與當前狀態(tài)值函數(shù)獲得當前聯(lián)合動作Q 值函數(shù).在MAgent 平臺下的戰(zhàn)斗場景中,同基線算法以及平均場Q 學習算法進行了對比,從殺敵數(shù)量、單Agent 單步平均獎賞和全體累積獎賞等方面進行分析,該算法架構(gòu)取得了很好的效果.
Brodeur 等[79]?提出了一個面向人工Agent 的家庭多模態(tài)環(huán)境(Household multimodal environment,HoME),在逼真的環(huán)境下,從視覺、音頻、語義、物理以及與對象和其他Agent 的交互等方面進行學習.HoME 基于SUNCG 數(shù)據(jù)集,集合了超過45 000 種不同的3D 房屋布局,這個尺度可以促進學習,泛化和遷移.該環(huán)境是一個開放源代碼,與OpenAI Gym 平臺兼容,可擴展到強化學習、基于聲音的導航、機器人以及多Agent 學習等任務(https://github.com/HoMEPlatform/home-platform).HoME 側(cè)重于室內(nèi)3D環(huán)境下的圖像研究,利用該平臺進行多Agent 研究的學者較少,但隨著圖像技術(shù)的發(fā)展,室內(nèi)異質(zhì)多Agent 協(xié)同也將是通用人工智能的熱點之一.
此外,Facebook AI 研究室提出一個面向即時戰(zhàn)略游戲(Real-time strategy game,RTS) 的廣泛的、輕量級的和靈活得多的Agent 強化學習平臺ELF (Extensive,lightweight and flexible research platform)[80],實現(xiàn)了具有3 種游戲環(huán)境(Mini-RTS、奪旗和塔防) 的高度可定制的RTS 引擎.該平臺在Environment-agent 通信拓撲,強化學習方法選擇游戲參數(shù)變化等方面靈活多樣,并且可以托管現(xiàn)有基于C/C++的游戲環(huán)境,如ALF(Arcade learning environment).同樣開發(fā)了相應的Python 接口,利用Python 接口可以返回經(jīng)歷樣本,方便進行強化學習訓練(https://github.com/facebookresearch/ELF).ELF 提供的為兩人對抗的視頻游戲場景,同Starcraft 相比,Agent 數(shù)量較少,不是多Agent 研究的主流,多為對抗游戲的測試環(huán)境.
3 MADRL 中的關(guān)鍵問題及其展望
MADRL 決策架構(gòu)研究對當前MAS 的強化學習決策結(jié)構(gòu)進行了分析與討論,但MADRL 仍面臨著多Agent 訓練要素的研究,即構(gòu)建何種訓練結(jié)構(gòu)可以使得Agent 能夠不依賴人類知識而由弱到強的進行學習,如何構(gòu)建合適的模型能夠更加準確的描述MAS,針對特定的MAS 采用何種決策架構(gòu)等;此外,PS 機制雖然使得單個Agent 擁有足量的訓練樣本,但當前MAS 系統(tǒng)仿真難度大,總體樣本數(shù)量依然有限,數(shù)據(jù)效率低,因而,需要利用已有樣本對整體樣本進行增強,滿足訓練的樣本量需求以及如何提高數(shù)據(jù)效率; 同時,DRL 訓練通常面臨著對環(huán)境過擬合的問題,而MADRL 則面臨著對對手和環(huán)境的雙重過擬合問題,需要采用對抗機制提高MADRL 算法的魯棒性; 在自主決策架構(gòu)中,受限于不完全環(huán)境信息,需要充分考慮對手模型,學習對手行為,進而產(chǎn)生協(xié)同行為; 另外,當前多Agent 逆強化學習的研究仍是一片空白.本節(jié)針對這些實用技術(shù)展開分析與研究.
3.1 多Agent 訓練要素研究
單個Agent 的DRL 任務,只需要一個環(huán)境和部分環(huán)境參數(shù),經(jīng)過一定時間的訓練就可以獲得“令人滿意” 的Agent.多Agent 任務相比單Agent 任務復雜許多,往往包含較多的因素,并且構(gòu)建復雜的多Agent 環(huán)境往往是不切實際的,而真實環(huán)境又難以獲得DRL 訓練所需的大樣本.
AlphaGo Zero[7-8]?利用自博弈的學習方式,不依賴人類知識,從零開始,訓練出強大的圍棋Agent.雖然AlphaGo Zero 是面向單Agent 的強化學習,但從訓練過程分析,其采用了競爭環(huán)境的多Agent共享參數(shù)訓練框架,自博弈的雙方Agent 共用一套網(wǎng)絡參數(shù),增加了訓練的樣本量,并通過對抗式的訓練架構(gòu),在19×19 的簡單環(huán)境中獲得了遠遠超越環(huán)境復雜度的強大Agent.在多Agent 學習中,可以使用類似的訓練過程.Bansal 等[81]?針對Agent的行為容量受限于環(huán)境容量問題,即環(huán)境的復雜度限制了訓練Agent 的復雜度上限,提出了一種同AlphaGo Zero 相似的對抗式的訓練架構(gòu),該架構(gòu)是無模型的強化學習方法,通過從零開始的課程學習,使得帶自博弈的對抗多Agent 環(huán)境可以訓練出遠比環(huán)境本身更復雜的行為.盡管這種對抗訓練方式在單個獨立Agent 環(huán)境中取得很大成功,在多Agent也取得一些進展,但并沒有類似AlphaGo Zero 的重大的突破.
除了對抗學習架構(gòu),博弈論方法為多Agent 研究提供了另外一種思路.Lanctot 等[82]?提出了基于近似最優(yōu)響應的廣義MARL 算法,該算法利用聯(lián)合策略相關(guān)性評估策略的泛化能力,將DRL 策略和實證博弈論分析進行混合,計算策略選擇的元策略,對自主強化學習、迭代最優(yōu)響應、Double Oracle 以及虛構(gòu)對抗等工作進行了泛化研究.
除了訓練架構(gòu)的研究外,對如何構(gòu)建MADRL的模型也存在一定的討論.在對序貫決策的任務建模中,MDP 是當前強化學習算法的主要模型,POMDP 則是多Agent 任務中的一種常見模型.但這一模型不是絕對的.演化博弈論同樣可以針對MADRL 進行有效建模.在將博弈理論引入MAS的早期研究中,已經(jīng)建立了一般強化學習和演化博弈論核心的模仿者動態(tài)(Replicator dynamics) 間的形式化聯(lián)系,在Bloembergen 的綜述[52]?中,他們對這一關(guān)系進行了討論,采用無限學習率的極限,研究了由此產(chǎn)生的動力學系統(tǒng),并深入了解了多Agent 系統(tǒng)的行為,如收斂性、穩(wěn)定性和魯棒性,對每個均衡的關(guān)注點和產(chǎn)生的回報給予額外的關(guān)注,同時對預期的聯(lián)合交互結(jié)果進行評估.
在多Agent 任務的3 種決策架構(gòu)中,集中決策利用集中方法對多Agent 進行協(xié)同,具有無法比擬的優(yōu)勢,在實際的問題研究中,業(yè)界人士多采用這種架構(gòu)[16-19,22].但從理論研究上,研究者們更加關(guān)注多Agent 自主決策,希望通過學習、設(shè)定目標,使得Agent 在執(zhí)行任務時能夠自發(fā)形成期望的協(xié)同動作.即便在未能預先知曉對手的任務中,訓練出自治的Agent 也能夠有效、魯棒的進行協(xié)作,對其他對手提供協(xié)同輔助.針對這種“點對點” 的協(xié)作已開展了部分研究[83-86],但仍留有很大的研究空間,而且在DRL 領(lǐng)域中還沒展開該“點對點” 的協(xié)作模式.
3.2 樣本增強技術(shù)研究
在真實系統(tǒng)上應用強化學習,數(shù)據(jù)采樣速度有限,導致強化學習訓練樣本不足.Huang 等[87]?提出了增強生成對抗網(wǎng)絡(Enhanced GAN,EGAN)初始化強化學習Agent,EGAN 利用狀態(tài)-行為與后繼狀態(tài)-獎賞之間的關(guān)系提高由GAN 生成的樣本的質(zhì)量,以實現(xiàn)更快的學習.Kumar 等[88]為更好理解在線商務中顧客與產(chǎn)品間的關(guān)系,利用GAN 生成仿真交易訂單,針對在線商務交易的特點,對在線訂單構(gòu)建了密集的低維表示,訓練出ecGAN (e-Commerce GAN) 驗證框架的合理性,并結(jié)合條件GAN 生成指定商品的訂單.該方法對多Agent 環(huán)境中的數(shù)據(jù)樣本生成提供了行之有效的架構(gòu).Andersen[89]?在其碩士畢業(yè)論文中研究了用于強化學習的人工訓練樣本生成模型,利用膠囊網(wǎng)絡[90],結(jié)合條件GAN 對環(huán)境中的圖片類狀態(tài)進行了生成,展示了生成數(shù)據(jù)對DQN 訓練的好處.Corneil 等[91]?介紹了變分狀態(tài)表(Variational state tabulation,VaST),能夠?qū)⒕哂懈呔S狀態(tài)空間(例如視覺輸入空間) 的環(huán)境映射到抽象表格環(huán)境,使用高效的優(yōu)先掃描規(guī)劃方法更新狀態(tài)操作值.Nishio等[92]?提出了結(jié)合神經(jīng)情景控制(Neural episodic control)[93]?的NEC2DQN 架構(gòu),在學習的初始階段,加速了樣本匱乏任務的學習速度.這些方法使用現(xiàn)有的GAN 技術(shù)對樣本進行生成,并不依賴環(huán)境的真實動態(tài)性,適用于經(jīng)歷重放機制下的強化學習算法.
上述方法關(guān)注于樣本的真?zhèn)?雖然也有考慮生成樣本間的相關(guān)性,但并沒有考慮環(huán)境本身的轉(zhuǎn)移關(guān)系.在DRL 研究中,無模型方法數(shù)據(jù)利用低效,僅僅使用了轉(zhuǎn)移中的獎賞信號,忽視了樣本的轉(zhuǎn)移過程; 基于模型的方法有較高的數(shù)據(jù)效率,但所獲得的策略往往不是最優(yōu)解.Ha 等[94]?將無模型和基于模型的方法進行結(jié)合-“世界模型”,利用少數(shù)轉(zhuǎn)移樣本,通過混合高斯分布的RNN 學習了虛擬環(huán)境模型,在虛擬環(huán)境中利用進化算法求解策略取得很好的效果.在此基礎(chǔ)上,相關(guān)學者[95-97]?將“世界模型” 概念推廣到更廣闊的環(huán)境中進行驗證,這種夢境下的學習彌補了Agent 同環(huán)境的多頻次交互.這一學習方式,為克服多Agent 環(huán)境中樣本不足提供了一種解決思路,但是如何對多Agent 環(huán)境中的非平穩(wěn)性進行刻畫,還留有相當大的研究空間.
3.3 魯棒性研究
在MAS 中,仿真環(huán)境同現(xiàn)實環(huán)境的差距巨大,這一困境導致在仿真環(huán)境中的策略學習的結(jié)果難以遷移; 另外,即使策略的學習樣本來自于現(xiàn)實環(huán)境,學習數(shù)據(jù)的不足也使得強化學習難以收斂.Pinto等[98]?利用存在對抗對手的環(huán)境,對Agent 進行對抗訓練操作,對手的對抗性隨Agent 能力增強而增強以此提高Agent 的魯棒性.Pattanaik 等[99]?發(fā)現(xiàn)即便很簡單的干擾,都會使得DRL 算法性能大幅衰退,針對該問題他們提出了對抗攻擊的強化學習算法,設(shè)計了簡單擾動和基于梯度擾動的兩種擾動方式,并對DQN 和DDPG 情況下的擾動以及對抗訓練進行了研究,提高算法在參數(shù)不確定環(huán)境中的魯棒性.Mhamdi 等[100]?認為在仿真中可能產(chǎn)生的中斷是學習過程的一部分,Agent 要有能力在安全的中斷中進行學習,并將這些影響它們獎勵的干擾與特定的狀態(tài)聯(lián)系起來,從而有效避免中斷,在聯(lián)合行動學習者和自主學習者兩個學習框架中研究這個概念,并對動態(tài)安全可中斷性進行了定義,實驗證明如果Agent 可以檢測到中斷,那么即使對于自主學習者,也可以修剪狀態(tài)以確保動態(tài)安全中斷.上述研究通過建立帶有擾動的環(huán)境提高Agent 的魯棒性.現(xiàn)有研究認為在有限的時間內(nèi),DRL 總能在單Agent 任務中尋找到較優(yōu)的策略,這一學習過程的本質(zhì)是對訓練環(huán)境的過擬合,因而在DL 用于克服過擬合的方法在單Agent 的DRL 任務中仍舊適用.而在多Agent 研究中的過擬合問題更加嚴重,不僅存在對環(huán)境的過擬合,同樣也存在著對對手的過擬合.雙重過擬合問題是MADRL 中的一大難點,決定著MAS 能不能進行可靠的應用.
另外,從遷移學習派生出來的信息也可以推廣到多Agent 情景來克服MADRL 的弱魯棒性,如課程學習.遷移學習算法利用學習中獲得的經(jīng)歷來對模型進行泛化,以改善Agent 在不同但相關(guān)的任務中的學習效果.遷移泛化能力在非平穩(wěn)環(huán)境中的表現(xiàn)尤為重要,特別是多Agent 中對抗對手模型變化帶來的環(huán)境的不可預知的變化(協(xié)同Agent 的策略變化處于一種可獲知的變化).例如,如果對手經(jīng)常發(fā)生變化,已有的先驗信息(以模型、規(guī)則或策略等形式)將有助于快速制定Agent 的策略.在現(xiàn)有的多Agent 學習中,重復使用對手過去的策略也有體現(xiàn),是當前克服模型過擬合的一種通用手段[63,81,101].現(xiàn)有技術(shù)適用于單個獨立的Agent,重用遷移不同Agent 的信息仍是一個有待解決的問題,向Agent提供建議也是一個待發(fā)展的方向.
此外,在MAS 中,環(huán)境中的Agent 在交互中產(chǎn)生和消亡也是可能的(例如,星際爭霸游戲中己方Agent 死亡),這將影響環(huán)境以及其他Agent 的策略.針對這類場景,是將每個可能消失/產(chǎn)生的Agent 單獨建模,或者利用參數(shù)共享,搭建可擴展的訓練架構(gòu)[55,59-60,71,102-103].同時,在大多數(shù)多Agent 學習算法中通常假定Agent 間的交互在所有的Agent間同時發(fā)生.然而,在現(xiàn)實世界的情況下,情況并非總是如此,這種通信交互往往是異步的,而不同的Agent 具有不同的響應時間.目前的學習算法能否在這些條件下工作仍然是一個懸而未決的問題.
與數(shù)量較大的Agent 進行交互往往帶來很大的問題,因而現(xiàn)有的大多數(shù)算法在環(huán)境中僅設(shè)置了較少的Agent 進行算法驗證.然而,將這些算法應用到大規(guī)模Agent 環(huán)境中,往往面臨著無法適應的問題.為了獲得高效和可擴展的算法,人們需要犧牲某些細節(jié),更加關(guān)注Agent 對整體最佳響應,而不是個體Agent 的最佳響應.想要克服這一問題,可以通過確定Agent 間交互的程度,考慮Agent 是否應該同某一Agent 進行交互、還是僅將其當作環(huán)境的一部分而不進行交互[63,104].
3.4 對手建模研究
在多Agent 任務中,存在著動作探索的風險.當多Agent 同時進行探索時,各Agent 都要面臨這種噪聲,往往造成全盤皆輸?shù)木置?同樣的問題也出現(xiàn)在多Agent 深度強化學習設(shè)置中[59],在不能進行通信協(xié)調(diào)的任務中,該問題顯得更加復雜.而且在MAS 中,Agent 是多種多樣的,在多Agent 系統(tǒng)中可能包含著各種各樣的Agent,它們的目標、感知以及獎賞都有可能是不同的.這種混雜的多Agent任務為最優(yōu)行動的學習帶來了極大的挑戰(zhàn).在多Agent 決策中,需要考慮對隊友與對抗對手的理解.在全通信中,Agent 通過通信完成了對己方協(xié)同Agent 的行為推斷,但對對抗Agent 仍需要進行觀察與學習; 在欠通信中,Agent 不僅要對協(xié)同Agent的行為進行分析與判斷,同時也要考慮對抗Agent的行為,對其進行分析與預測.Lowe 等[105]?利用對手的歷史行為對對手的策略進行推斷,通過最大化對手Agent 的動作概率來近似對手策略,定義損失函數(shù)為
其中oj?和aj?表示待近似的Agentj?的觀測和實際執(zhí)行動作,
表示對于決策Agenti?而言的對手Agent?j?的近似策略,H?表示策略分布的熵.Rabinowitz等[106]?提出了一種使得機器可以學習他人心理狀態(tài)的心智理論神經(jīng)網(wǎng)絡(Theory of mind network,ToMnet),通過觀察Agent 的行為,使用元學習對它們進行建模,得到一個對Agent 行為具備強大先驗知識的模型,該模型能夠利用少量的行為觀測,對Agent 特征和心理狀態(tài)進行更豐富的預測.如圖11所示,特征網(wǎng)絡從POMDP 集合中解析Agent 過去的軌跡,從而形成嵌入表示echar.心理狀態(tài)表示網(wǎng)絡的心智網(wǎng)絡解析當前片段中Agent 的軌跡,形成心理狀態(tài)嵌入emental.然后,這些嵌入被輸入至預測網(wǎng)絡Prediction net,結(jié)合當前狀態(tài)對Agent 未來行為進行預測,如下一步動作概率
、特定對象被消耗的概率
和預測后繼者表示
圖11 心智網(wǎng)絡
Fig.11 Mind theory neural network
上述對手建模研究聚焦于建立概率模型和參數(shù)化策略,He 等[107]?提出了同步學習對手策略和模型的神經(jīng)網(wǎng)絡模型,將對手觀測嵌入編碼輸入DQN中,而不是顯式地預測對手動作.使用混合專家架構(gòu),無需額外的監(jiān)督信息即可發(fā)現(xiàn)多種策略,并利用估計權(quán)重對多個策略Q 值進行加權(quán)求和,進而獲得最優(yōu)的行動.Foerster 等[108]?針對合作-競爭的多Agent 學習環(huán)境,提出與對手-學習意識(Learning with opponent-learning awareness,LOLA)的學習方法,該模型考慮對手策略的策略更新方式,推理其他Agent 的預期學習,通過對狀態(tài)值V?1(θ1,θ2?+Δθ2)≈V?1(θ1,θ2)+(Δθ2)T?θ2V?1(θ1,θ2) 進行一階泰勒展開,獲得決策Agent 的值函數(shù)梯度,針對合作對手和競爭對手采用兩種不同的更新方式.Hong等[109]?根據(jù)預測對手動作的網(wǎng)絡,從隱藏層中提取對手的行動意圖作為決策依據(jù),設(shè)計適應性的損失函數(shù)調(diào)整訓練的關(guān)注點,并將RNN 架構(gòu)引入Q網(wǎng)絡的訓練中,提出了深度循環(huán)策略推斷Q 網(wǎng)絡(Deep recurrent policy inference Q-network,DRPIQN).Raileanu 等[110]?提出自主對手建模(Self other-modeling,SOM),通過觀測對手行動,根據(jù)已有的行動意圖集以及單獨的神經(jīng)網(wǎng)絡在線構(gòu)建對手模型,判斷對手的意圖,最終結(jié)合當前狀態(tài)以及自我意圖進行決策.
在上述學習算法中往往假設(shè)知曉對手的相關(guān)域知識,如可正確描述對手觀測的屬性和特征,然而現(xiàn)實世界中,總有許多事情是不可預知的,總有些實體是不期而遇的.在這種情況下,可以構(gòu)建一組已知的不確定對手特征表示,通過特定的概率分布來推斷正確的對手行為.同樣也可以采用多任務學習,構(gòu)建多個可能的環(huán)境和對手對Agent 進行訓練.然而在執(zhí)行中,仍會存在一些之前沒有遇到過的對手,不可能構(gòu)建一個包含全體要素的環(huán)境,但現(xiàn)實的世界卻有著種種不可預知的要素,如何克服這種不確定性為系統(tǒng)帶來的風險,也是值得研究的一個方向.
4 結(jié)論
盡管DRL 在一些單Agent 復雜序列決策任務中取得了卓越的效果,但多Agent 環(huán)境下的學習任務中任然面臨諸多挑戰(zhàn),另一方面,人類社會中很多問題都可以抽象為復雜MAS 問題,所以,在這個領(lǐng)域需要進一步地深入探索.現(xiàn)有多Agent 學習綜述多同博弈論關(guān)聯(lián),但伴隨著DRL 的產(chǎn)生與發(fā)展,國內(nèi)外尚沒有一份關(guān)于MADRL 的綜述.我們通過總結(jié)近些年深度強化學習以及多Agent 深度強化學習方面的論文,從訓練架構(gòu)以及實現(xiàn)技巧方面著手,撰寫此文.MADRL 是DRL 在多Agent 領(lǐng)域的擴展.本文首先對強化學習的基本方法以及DRL 的主要方法進行了介紹與分析; 在此基礎(chǔ)上,從通信和決策架構(gòu)方面對MADRL 進行分類,抽象為全通信集中決策、全通信自主決策、欠通信自主決策三類,并對一些開放的多Agent 訓練環(huán)境進行了簡要介紹; 然后,對多Agent 深度強化學習中需要用到的實用技術(shù)進行了分析與討論,包含多Agent 訓練框架、樣本增強、魯棒性以及對手建模等一些關(guān)鍵問題,并根據(jù)對這些關(guān)鍵問題的認識,給出MADRL 領(lǐng)域的發(fā)展展望,對仍待研究的問題進行了探討.
隨著深度強化學習的繼續(xù)發(fā)展,在MAS 中的應用以及研究也將越來越廣泛,但其訓練和執(zhí)行方式也將屬于這3 種形式之一.我們的研究旨在對當前的MADRL 研究現(xiàn)狀進行整理與歸納,為希望將DRL 應用于MAS 的學者或機構(gòu)提供一份可供參考的概覽.
審核編輯:符乾江
評論