_{<dl id="m2jru"><em id="m2jru"></em></dl>}

0

電子發(fā)燒友App

硬聲App

搜索歷史

清空

搜索熱詞

0

聊天消息
系統(tǒng)消息
評論與回復

查看更多

查看更多

查看更多

登錄后你可以

下載海量資料
學習在線課程
觀看技術(shù)視頻
寫文章/發(fā)帖/加入社區(qū)

創(chuàng)作中心

發(fā)布

創(chuàng)作活動

完善資料讓更多小伙伴認識你，還能領(lǐng)取20積分哦，立即完善>

3天內(nèi)不再提示

電子發(fā)燒友網(wǎng)>今日頭條>《自動化學報》—多Agent深度強化學習綜述

《自動化學報》—多Agent深度強化學習綜述

多Agent 深度強化學習綜述

來源：《自動化學報》，作者梁星星等

摘要?近年來,深度強化學習(Deep reinforcement learning,DRL) 在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力,深度強化學習已經(jīng)成為實現(xiàn)人工智能頗有前景的學習范式.然而,深度強化學習在多Agent 系統(tǒng)的研究與應用中,仍存在諸多困難和挑戰(zhàn),以StarCraft II 為代表的部分觀測環(huán)境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q 網(wǎng)絡、深度策略梯度算法等為代表的深度強化學習算法和相關(guān)技術(shù).同時,從多Agent 深度強化學習中通信過程的角度對現(xiàn)有的多Agent 深度強化學習算法進行歸納,將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3 種主流形式.從訓練架構(gòu)、樣本增強、魯棒性以及對手建模等方面探討了多Agent 深度強化學習中的一些關(guān)鍵問題,并分析了多Agent 深度強化學習的研究熱點和發(fā)展前景.

關(guān)鍵詞?多Agent 系統(tǒng),深度學習,深度強化學習,通用人工智能

強化學習(Reinforcement learning,RL) 是機器學習的一個子領(lǐng)域,學習如何將場景(環(huán)境狀態(tài))映射到動作的策略,以獲取能夠反映任務目標的最大數(shù)值型獎賞信號,即在給定的環(huán)境狀態(tài)下,決策選擇何種動作去改變環(huán)境,使得獲得的收益最大[1].同監(jiān)督式的機器學習過程不同,在強化學習過程中Agent1不被告知應該采用哪個動作,而是通過不斷與環(huán)境交互,從而試錯學習到當前任務最優(yōu)或較優(yōu)的策略.這一學習范式能夠有效地解決在自然科學、社會科學以及工程應用等領(lǐng)域中存在的序貫決策問題.在強化學習的發(fā)展歷史中,強化學習和神經(jīng)網(wǎng)絡的結(jié)合已有較長的歷史[2],但是在復雜序列決策問題中始終沒有顯著的突破.然而,隨著深度學習(Deep learning,DL) 在復雜數(shù)據(jù)驅(qū)動任務中展現(xiàn)出的卓越性能[3-4],一種融合了深度學習強大的特征表示能力和強化學習高效策略搜索能力的學習范式-深度強化學習(Deep reinforcement learning,DRL) 逐漸引起學者的廣泛關(guān)注,DRL 是將DL 引入到RL,將深度神經(jīng)網(wǎng)絡引入到RL 的值函數(shù)、策略函數(shù)或者環(huán)境模型的參數(shù)估計中.DRL 在游戲、機器人、自然語言處理等問題中,取得了令人矚目的成果[5-12].AlphaGo 的主要貢獻者David Silver 更是將現(xiàn)代人工智能定義為RL+DL[13],即DRL 才是人工智能的理想范式[14].趙冬斌等[7]?認為人工智能將會是各國競相爭奪的下一科技高地.

伴隨著DRL 在一些復雜單Agent 任務中的有效應用,人們又將DRL 的研究成果轉(zhuǎn)移到了多Agent 系統(tǒng)(Multi-agent system,MAS) 的應用中,以期獲得同樣的突破.MAS 由一組利用傳感器感知共享環(huán)境的自治、交互的Agent 組成,每個Agent獨立地感知環(huán)境,根據(jù)個人目標采取行動,進而改變環(huán)境[15].在現(xiàn)實世界中,存在許多MAS 的實例,例如資源調(diào)度管理[16]、擁塞處理[17-19]、通信傳輸[20]、自動駕駛[21]、集群規(guī)劃[22-25]?等.

多Agent DRL (Multi-agent DRL,MADRL)是DRL 在MAS 中應用的研究分支,理論基礎(chǔ)源于DRL.雖然將DRL 應用于MAS 中有著許多研究,但據(jù)我們所知,尚沒有關(guān)于多Agent DRL 研究的綜述性報告,趙冬斌等[7]?對DRL 以及圍棋的發(fā)展進行了綜述,但其出發(fā)點、綜述角度以及內(nèi)容安排與本文有較大不同,如表1 所示.本文在對近些年國內(nèi)外的研究現(xiàn)狀進行分析與研究后,從MADRL 設(shè)計與實踐的角度出發(fā),對這一領(lǐng)域進行歸納總結(jié).

本文首先對DRL 進行基本的介紹,從策略表現(xiàn)的角度對當前DRL 的兩個主要方向,即深度Q 網(wǎng)絡和深度策略梯度的發(fā)展進行了描述.在第2 節(jié),我們首先分析了DRL 與MAS 的關(guān)系,描述了DRL與MAS 結(jié)合的優(yōu)勢與挑戰(zhàn); 同時我們利用部分可觀測的馬爾科夫決策過程對MADRL 問題進行了模型設(shè)計,用以表達MAS 的數(shù)學過程; 之后,根據(jù)當前DRL 的實現(xiàn)結(jié)構(gòu)以及多Agent 在DRL 實現(xiàn)中通信過程的發(fā)生階段,將現(xiàn)有MADRL 劃分為全通信集中決策、全通信自主決策以及欠通信自主決策等三類,對每類決策架構(gòu)的當前研究現(xiàn)狀進行討論分析,對面向多Agent 學習的開放訓練平臺進行介紹; 在第3 節(jié),針對現(xiàn)有MADRL 仍面臨的一些關(guān)鍵問題,從MADRL 的學習訓練框架、樣本增強、魯棒性研究以及對手建模等方面進行研究,提出了當前MADRL 可能發(fā)展的方向; 在第4 節(jié),對全文進行總結(jié).

1 深度強化學習簡介

深度強化學習的學習框架是20 世紀90 年代提出的強化學習,由強化學習與深度學習結(jié)合發(fā)展而來,是機器學習的重要分支.在這一學習范式中,Agent 通過與環(huán)境的交互,不斷調(diào)整策略,進而實現(xiàn)最大化累計獎賞值的目標.強化學習利用馬爾科夫決策過程(Markov decision process,MDP) 對序貫決策問題進行數(shù)學定義.

定義1 (馬爾科夫決策過程).?MDP 由一個五元組〈S,A,R,T,γ〉?定義,其中,S?表示由有限狀態(tài)集合組成的環(huán)境;A?表示可采取的一組有限動作集;狀態(tài)轉(zhuǎn)移函數(shù)T?:S×A →Δ(S) 表示將某一狀態(tài)-動作對映射到可能的后繼狀態(tài)的概率分布,Δ(S) 表示狀態(tài)全集的概率分布,對于狀態(tài)s,s′∈S?以及a∈A,函數(shù)T?確定了采取動作a?后,環(huán)境由狀態(tài)s?轉(zhuǎn)移到狀態(tài)s′?的概率; 獎賞函數(shù)R(s,a,s′) 定義了狀態(tài)轉(zhuǎn)移獲得的立即獎賞;γ?是折扣因子,代表長期獎賞與立即獎賞之間的權(quán)衡.

表1 與已發(fā)表相關(guān)論文的研究異同
Table 1 Research′s similarities and differences

與一般的MDP 不同,面向強化學習的MDP中包含感知函數(shù)Z?:s →z,如圖1 所示.在完全觀測環(huán)境下,Agent 獲取完全真實的環(huán)境狀態(tài),即z=s?(在對單Agent 討論時,真實觀測和真實狀態(tài)通常不予區(qū)分).在學習過程中,RL 中的Agent在多個離散時間步同環(huán)境進行交互,在時間步t,Agent 從環(huán)境中接收狀態(tài)空間S?中的狀態(tài)st,根據(jù)策略π(at|st),從可選動作空間A?中選擇動作at執(zhí)行,作用于環(huán)境,環(huán)境根據(jù)自身動態(tài)性(獎賞函數(shù)R(s,a,s′) 和狀態(tài)轉(zhuǎn)移函數(shù)T=P(st+1|st,at)),轉(zhuǎn)移到下一狀態(tài)st+1,并返回一個標量的獎賞值rt+1(獎賞值是針對下一時刻的獎賞,因而下標是t+1).當環(huán)境所處的狀態(tài)為終止狀態(tài)或交互達到最大時間步,一次試驗結(jié)束,進入下一次試驗.返回值Rt=

是一個帶折扣γ ∈(0,1]的累計獎賞值.Agent 的目標是最大化每個狀態(tài)值的累積獎賞期望值,即

圖1 MDP 示意圖
Fig.1 Diagram of MDP

經(jīng)典的強化學習策略學習方法包括了表格法(Tabular solution methods) 和近似法(Approximate solution methods).當求解問題的狀態(tài)空間和動作空間規(guī)模較小時,往往采用基于表格法的強化學習.表格法將全部的狀態(tài)值V(s) 或者狀態(tài)-動作值Q(s,a) 存入到一個帶索引的表格中,決策時按指定索引查詢狀態(tài)或狀態(tài)-動作值,并根據(jù)貪婪原則選擇動作.在更新過程中,依據(jù)一次試驗的結(jié)果,按索引對參與的狀態(tài)/狀態(tài)-動作值以及相關(guān)的狀態(tài)-動作值進行更新.在現(xiàn)實世界中,我們以期解決的問題的狀態(tài)/動作空間是連續(xù)且龐大的[1].在這種情況下,表格法由于容量有限,很難對所有值進行存儲,因而在實際操作中應用范圍較窄,難以進行擴展.為了降低計算資源和存儲資源的開銷以及提高決策效率,我們需要通過近似的方法對狀態(tài)/狀態(tài)-動作值進行估計.這類算法的應用場景更為廣泛,是當前強化學習研究的主要趨勢.在近似法強化學習中,根據(jù)學習目的以及選擇動作的依據(jù),即是否利用狀態(tài)值/狀態(tài)-動作值函數(shù)的策略貪婪地選擇動作,分為兩類:函數(shù)近似方法和策略梯度方法.在文獻[7] 中的第2 節(jié)中,對上述方法進行了概述,本文不再贅述.

與基本的強化學習方法相比,DRL 將深度神經(jīng)網(wǎng)絡作為函數(shù)近似和策略梯度的近似函數(shù).雖然使用深度神經(jīng)網(wǎng)絡解決強化學習問題缺乏較好的理論保證,但深度神經(jīng)網(wǎng)絡的強大表現(xiàn)力使得DRL 的結(jié)果遠超預期.在DRL 中,DL 同函數(shù)近似結(jié)合發(fā)展成為了深度Q 學習,而策略梯度則發(fā)展為深度策略梯度.

1.1 深度Q 學習及其發(fā)展

在深度Q 網(wǎng)絡(Deep Q-network,DQN)[6,26]提出之前,強化學習與神經(jīng)網(wǎng)絡(Neural network,NN) 的結(jié)合遭受著不穩(wěn)定和發(fā)散等問題的困擾.DQN 做了3 處改進,使用經(jīng)歷重放和目標網(wǎng)絡穩(wěn)定基于DL 的近似動作值函數(shù); 使用端到端方法,利用卷積神經(jīng)網(wǎng)絡(Convolutional neural network,CNN) 將原始圖片和游戲得分作為輸入,使模型僅需較少的領(lǐng)域知識; 訓練了可變的網(wǎng)絡,其結(jié)果在多個任務中表現(xiàn)良好,超越人類專業(yè)玩家[14],如圖2所示,利用最近的4 幀視頻圖片作為狀態(tài)的描述,通過兩層卷積層,一層全連接層輸出Agent 可選動作的值估計,采用ε?貪婪選擇執(zhí)行動作.DQN 的網(wǎng)絡參數(shù)更新方式為

其中,Q(st,at;θt) 表示t?時刻,狀態(tài)-動作值估計;

rt+1+γmaxaQ(st+1,a;θ-) 是作為臨時的目標Q 值,用于穩(wěn)定神經(jīng)網(wǎng)絡的學習,θ-?表示目標網(wǎng)絡的參數(shù),γ?表示獎賞的折扣率;θt?表示正在同環(huán)境交互的網(wǎng)絡的參數(shù),α?表示神經(jīng)網(wǎng)絡的學習率.

標準Q 學習利用max 操作符使得目標值過高估計,Van Hasselt 等[27]?提出了Double DQN 用于平衡值估計.在利用時序差分(Temporal difference，TD) 算法對目標Q 值進行更新時,后繼狀態(tài)的動作選擇來自于當前網(wǎng)絡Q,而評估則來自于目標網(wǎng)絡

將式(1) 中的

替換為

圖2 DQN 架構(gòu)
Fig.2 Framework of DQN

為了消除強化學習轉(zhuǎn)移樣本間的相關(guān)性,DQN使用經(jīng)歷重放機制,即在線存儲和均勻采樣早期交互的經(jīng)歷對神經(jīng)網(wǎng)絡進行訓練.然而均勻采樣方法忽略了經(jīng)歷的重要性,Schaul 等[28]?提出了優(yōu)先經(jīng)歷重放,利用TD error 對經(jīng)歷的重要性進行衡量,對重要性靠前的經(jīng)歷重放多次,進而提高學習效率.

此外,在DQN 的模型結(jié)構(gòu)方面,也有著較大的改進.Wang 等[29]?設(shè)計了競爭網(wǎng)絡結(jié)構(gòu)(Dueling network),在Q?網(wǎng)絡輸出層的前一隱藏層輸出兩個部分,一部分估計了狀態(tài)值函數(shù)V(s),另一部分估計了相關(guān)動作的優(yōu)勢函數(shù)A(s,a),在輸出層將二者相加進而估計動作值函數(shù)Q(s,a)=V(s)+A(s,a).這一結(jié)構(gòu)使得Agent 在策略評估過程中能夠更快地做出正確的動作.Hausknecht 等[30]?將循環(huán)神經(jīng)網(wǎng)絡(Recurrent neural network,RNN) 引入DQN中,提出了深度循環(huán)Q 網(wǎng)絡(Deep recurrent Qnetwork，DRQN) 模型,在部分可觀測的強化學習任務中,性能超越了標準DQN.Sorokin 等[31]?提出了基于軟硬注意力機制的DQN,使用深度注意力RNN 對同任務相關(guān)的單元進行了重點關(guān)注.Hessel等[32]?對現(xiàn)有DRL 中的6 種擴展DQN 算法進行了比較,根據(jù)各改進對性能提升的貢獻,提出了集成多種最優(yōu)改進的組合版Rainbow 算法.Srouji 等[33]提出結(jié)構(gòu)控制網(wǎng)絡(Structured control net,SCN),將深度神經(jīng)網(wǎng)絡分解成為兩部分:線性控制模塊和非線性控制模塊,然后分別對獲得的編碼進行處理,并將結(jié)果進行加和,非線性控制模塊進行全局控制而線性模塊對其進行補充.

1.2 深度策略梯度及其發(fā)展

策略是將狀態(tài)空間映射到動作空間的函數(shù)或者分布,策略優(yōu)化的目標是尋找最優(yōu)的策略映射.DQN 算法主要應用于離散動作的空間任務,面對連續(xù)動作空間的任務,基于策略梯度的DRL 算法能獲得更好的決策效果.

連續(xù)動作空間的策略梯度算法分為隨機策略梯度算法(Stochastic policy gradient,SPG)[1]?和深度確定策略梯度算法(Deep deterministic policy gradient,DDPG)[34-35]?.

SPG 假設(shè)在連續(xù)控制問題研究中,策略選擇具有隨機性,服從某種分布(如高斯分布),在策略執(zhí)行過程中依概率進行動作選擇.SPG 計算式為πθ(a|s)=P[a|s,θ],表示在狀態(tài)為s?時,動作符合參數(shù)為θ?的概率分布,如高斯分布πθ(a|s)=

表示Agent 采取的動作服從均值為μ(s,θ)、方差為σ(s,θ)2?的正態(tài)分布.在SPG 算法中,即使在相同的狀態(tài),每次所采取的動作也可能是不同的.該算法的梯度計算為

其中,τ?表示試驗過程,τ={s0,a0,r1,s1,a1,r2,···,sT-1,aT-1,rT,sT}?表示一次試驗過程中每個時間步經(jīng)歷的狀態(tài)、采取的動作以及獲得的獎賞;R(τ)=

為試驗過程中初始狀態(tài)的累積獎賞.

DDPG 算法則假設(shè)策略生成的動作是確定的,策略梯度的求解不需要在動作空間采樣積分.與SPG 的策略表現(xiàn)度量η(θ)=E[Rt] 不同,DDPG的策略表現(xiàn)度量為η(θ)=Q(s,a),如果策略是最優(yōu)的,則狀態(tài)-動作值是最大的.DDPG 計算式為a=μθ(s),表示在狀態(tài)s?下動作的取值.在相同策略(即函數(shù)參數(shù)相同) 的情況下,同一狀態(tài)下動作的選擇是唯一的.DDPG 算法的梯度計算式為

通過Q 函數(shù)直接對策略進行調(diào)整,向著梯度上升的方向?qū)Σ呗赃M行更新.

廣義上,DDPG 算法是SPG 的特例,當SPG算法中的方差σ →0 時,SPG 將會收斂到DDPG.SPG 算法的輸入需要狀態(tài)和動作,而DDPG 算法的輸入僅依靠狀態(tài)空間,且當動作空間維度較高時,DDPG 算法的學習效率優(yōu)于SPG 算法.

與DQN 采用的經(jīng)歷重放機制不同,深度策略梯度采用異步優(yōu)勢Actor-critic (AC) 框架(Asynchronous advantage actor-critic,A3C)[36],如圖3所示.利用CPU 多線程的功能異步執(zhí)行多個仿真過程,這一并行訓練方法打破了訓練樣本間的相關(guān)性.相比于傳統(tǒng)AC 算法,基于多線程并行訓練的A3C 算法,結(jié)合優(yōu)勢函數(shù)訓練神經(jīng)網(wǎng)絡,大幅度提升AC 算法的學習效率.此外,A3C 使用經(jīng)過tmax步的多步獎賞信號更新值函數(shù)網(wǎng)絡-Critic 網(wǎng)絡,并利用優(yōu)勢函數(shù)對Actor 網(wǎng)絡進行更新,降低了值函數(shù)估計和策略梯度的方差.在A3C 的結(jié)構(gòu)基礎(chǔ)上,Babaeizadeh 等[37]?提出了CPU 和GPU 混合架構(gòu)的GPU-A3C (GA3C),引入了隊列系統(tǒng)和動態(tài)調(diào)度策略,有效利用了GPU 的計算能力,大幅提升了A3C 的訓練速度.Jaderberg 等[38]?提出了無監(jiān)督強化輔助學習(Unsupervised reinforcement and auxiliary learning,UNREAL) 算法,在訓練A3C的過程中,兼顧訓練兩類輔助任務來對算法進行改進,一類是包括像素控制和隱藏層激活控制的控制任務,另一類是回饋預測任務.Wang 等[39]?結(jié)合長短時記憶網(wǎng)絡(Long short-term memory,LSTM),提出了在不同任務間具有良好的泛化能力的堆棧LSTM-A3C 算法.

圖3 A3C 框架
Fig.3 Framework of A3C

在非線性優(yōu)化問題中,梯度的求解相對容易,但合適的優(yōu)化步長困擾著函數(shù)優(yōu)化的速率.早期強化學習研究設(shè)置步長退火因子,隨著迭代次數(shù)的增加,逐步減小步長.在強化學習任務中,大多數(shù)的策略梯度算法難以選擇合適的梯度更新步長,使得NN 訓練處于振蕩不穩(wěn)定的狀態(tài).Schulman等[40]?提出了可信域策略優(yōu)化(Trust region policy optimization,TRPO) 處理隨機策略的訓練過程,在訓練中定義了新策略與舊策略的KL 散度,要求狀態(tài)空間中的每個點的KL 散度有界限,即

KL[πθold(·|st),πθ(·|st)]]≤δ,得到了代理優(yōu)化目標

利用非線性約束極值方法將代理優(yōu)化目標轉(zhuǎn)化為

進而保證策略優(yōu)化過程穩(wěn)定提升,同時證明了期望獎賞呈單調(diào)性增長.在此基礎(chǔ)上,該團隊繼續(xù)提出了基于優(yōu)勢函數(shù)加權(quán)估計的廣義優(yōu)勢估計方法(Generalized advantage estimation,GAE),用以減少策略梯度估計方差[18].ACKTR[41]?以Actorcritic 框架為基礎(chǔ),引入TRPO 使算法穩(wěn)定性得到保證,然后加上Kronecker 因子分解以提升樣本的利用效率并使模型的可擴展性得到加強,相比于TRPO 在數(shù)據(jù)利用率和訓練魯棒性上都有所提升,訓練效率更高.Wang 等[42]?汲取其他DRL 算法的優(yōu)勢,提出了基于經(jīng)驗回放的Actor-critic 算法(Actor-critic with experience replay,ACER),采用n-step 的TD 估計,利用偏差修正的截斷重要度權(quán)重,以及后驗TRPO 對網(wǎng)絡參數(shù)更新,提升了算法性能.TRPO 算法使用二階優(yōu)化算法獲得海塞矩陣,計算較為復雜,Schulman 等[43]?進一步提出了僅使用一階優(yōu)化的近端策略優(yōu)化(Proximal policy optimization,PPO) 算法,對代理目標函數(shù)簡單限定了約束,簡化了實現(xiàn)和調(diào)參過程,性能上優(yōu)于現(xiàn)階段其他策略梯度算法,表現(xiàn)出了同TRPO 算法相當?shù)姆€(wěn)定性和可靠性.

2 MADRL 研究

本節(jié)首先對DRL 同MAS 間的關(guān)系進行討論,分析DRL 與MAS 結(jié)合帶來的優(yōu)勢以及挑戰(zhàn).之后,考慮到單Agent 強化學習算法中環(huán)境的馬爾科夫?qū)傩栽贛AS 中并不適用,標準的強化學習模型及算法無法刻畫出環(huán)境的動態(tài)性,我們對多Agent 的環(huán)境動態(tài)性以及學習過程進行描述與定義.在這一模型的描述基礎(chǔ)上,我們根據(jù)DRL 中的神經(jīng)網(wǎng)絡內(nèi)部各Agent 的信息交互發(fā)生階段(對外則表現(xiàn)為決策架構(gòu)形式),對當下的MADRL 進行分類,對每一個類型的現(xiàn)有研究進行分析.最后,為方便相關(guān)學者的研究,給出了現(xiàn)有公開可用的多Agent 實驗平臺介紹.

2.1 DRL 與MAS 的關(guān)系

多Agent 任務的復雜性使得預置的Agent 策略難以適應多變的環(huán)境,Agent 必須依靠自身學習去尋找解決方案,逐步提升Agent 或者整個多Agent系統(tǒng)的性能.RL 算法便于理解,操作簡單,為Agent在線學習提供了一種便于接受的范式.在DRL 之前,將RL 應用于MAS 系統(tǒng)已有諸多研究綜述.早在2005 年,Panait 等[44]?就對協(xié)作多Agent 學習算法進行了廣泛的分析,并將其分為兩類:單個學習者(團體學習) 和多個學習者(并發(fā)學習).Shoham等[45]?對多Agent 學習進行了一般性綜述,提出了一些有趣的基礎(chǔ)問題,并指出了該領(lǐng)域發(fā)展的5 個分支.Tuyls 等[46]?呈現(xiàn)了關(guān)于人工智能(Artificial intelligence,AI) 問題的多Agent 學習鳥瞰圖,描述了領(lǐng)域內(nèi)所取得的里程碑成就,并給出了當時的開放挑戰(zhàn).Matignon 等[47]?側(cè)重于協(xié)作隨機博弈的獨立強化學習算法的發(fā)展.Bu?soniu 等[48]?對多Agent強化學習進行了全面的調(diào)查,他們提出了多Agent強化學習的算法分類和相關(guān)屬性.Crandall 等[49]?對兩人重復博弈的算法進行了概述,指出了多Agent問題的3 個屬性:安全性、合作性和折衷性,他們認為這些屬性在各種不同的游戲中扮演著非常重要角色.M¨uller 等[50]?提出了一個面向應用的多Agent概述,重點研究了使用或基于MAS 的應用程序.Weiss[51]?在其關(guān)于多Agent 系統(tǒng)專著的第10 章對多Agent 學習算法進行了描述,并對這些算法進行了分類.Bloembergen 等[52]?對演化博弈論的相關(guān)研究進行了概述,分析了多Agent 學習與演化博弈論間的關(guān)系.Hernandez-Leal 等[53]?從處理MAS 非平穩(wěn)性問題的角度出發(fā),將現(xiàn)有方法分為忽略、遺忘、響應目標對手、學習對手模型以及心智理論等5類.但是這些研究難以處理高維連續(xù)狀態(tài)空間與連續(xù)動作空間的環(huán)境,必須對環(huán)境特征進行抽取與人為定義,多個模塊的聯(lián)合進一步提升了MAS 的求解難度.而且上述綜述都是從多Agent 研究的某一角度出發(fā),研究較早,關(guān)注點停留在DRL 興起前的研究算法,沒有對DRL 崛起后的多Agent 系統(tǒng)進行研究.DRL 提供了一種端到端(End to end) 的學習方式,這一學習方式結(jié)合了深度神經(jīng)網(wǎng)絡的高容量特性,RL 決策高維連續(xù)空間的能力以及現(xiàn)有的硬件計算能力,克服了早期MAS 將任務分解的學習方式,降低了任務的求解復雜度,大幅提高了決策的穩(wěn)定性,為解決MAS 提供了一種新的思路.

此外,DRL 和MAS 的特性在一些方面可以優(yōu)勢互補.DRL 訓練往往需要大量樣本進行訓練,而MAS 系統(tǒng)的天生并發(fā)性,使得多個Agent 可以并發(fā)產(chǎn)生大量樣本,大大提升了樣本數(shù)量,加速學習過程以及達到更好的學習效果; MAS 的這一并發(fā)性,又使得多Agent 在分散架構(gòu)下能夠充分使用并行計算,提升了DRL 的學習效率; 在MAS 中,新來的Agent 能夠接替早些時候的Agent,這使得MADRL 相對于single-agent DRL 具有更強的魯棒性.現(xiàn)有的MAS 難以處理高維連續(xù)的環(huán)境,而DRL 能夠處理高維度的輸入,學習控制復雜的動作;神經(jīng)網(wǎng)絡的內(nèi)部結(jié)構(gòu),又可以解決MAS 中的通信問題,克服人為定義通信方式的不足問題.MAS 同DRL 的結(jié)合,在帶來上述好處的同時,也遭受著自身的以及結(jié)合帶來的問題:隨著Agent 數(shù)量的增加,決策輸出的動作維度越來越大,動作空間呈現(xiàn)指數(shù)增長的趨勢; 相對于單個Agent,多Agent 任務更加難以制定學習目標,單個Agent 學習的結(jié)果受全體Agent 的影響; 多Agent 的同步學習,使得環(huán)境產(chǎn)生了非平穩(wěn)性,打破了DRL 學習的基本前提; 多Agent 中的探索,更容易使得策略的學習陷入惡性循環(huán),難以獲得良好的策略.

2.2 多Agent 學習模型

多Agent 集中決策過程獲取全局觀測并輸出全局聯(lián)合動作的方式滿足MDP 屬性,同單Agent 的強化學習方法決策過程類似,可以應用面向強化學習的MDP 對其進行建模,在本節(jié)對這一數(shù)學過程進行了描述,但這一方式在MAS 中應用有許多缺點,在第2.6 節(jié)中將進行討論.多Agent 自主決策過程可以使用隨機博弈理論進行描述,正則形式的博弈是MDP 在多Agent 的環(huán)境中的泛化形式,定義如下.

定義2 (正則形式的博弈,Normalform game).?有限參與者的正則形式的博弈由三元組〈N,A,u〉?組成,其中N?表示I?個Agent 的有限集合,i?表示Agent 的索引;A=A1×···×AI,其中,Ai?表示單個Agent 的有限動作集合,向量a=(a1,···,aI)∈A?表示所有Agent 的一次動作集合;u=(u1,···,uI),ui?:

表示單個Agent 的真實效用或者收益函數(shù).

正則形式的博弈描述了多Agent 的一次決策過程,但沒有對環(huán)境狀態(tài)進行明確定義,不能夠描述多Agent 的環(huán)境特征以及動態(tài)變化特性,如StarCraft II,自動駕駛,多Agent 對抗等非平穩(wěn)的、不完全的、部分可觀測的環(huán)境特性.在現(xiàn)有強化學習以及隨機博弈理論的啟發(fā)下,自主決策的多Agent 決策過程可以建模為部分可觀測的MDP,定義如下(過程如圖4 所示).

定義3 (部分可觀測馬爾科夫決策過程,Partially observable MDP,POMDP).?面向多Agent 的POMDP 可由八元組G=〈N,S,A,R,T,γ,Z,O〉?定義.在POMDPG?中,N?表示參與決策Agent 的集合,i ∈N ≡{1,···,n}?表示單個Agent;s ∈S?表示環(huán)境的真實狀態(tài);aaa ∈AAA ≡An?表示參與決策的Agent 的動作集合,ai∈Ai?表示單個Agent 執(zhí)行的動作;T?:S×A×S →[0,1] 表示環(huán)境狀態(tài)轉(zhuǎn)移函數(shù),在狀態(tài)s?下,執(zhí)行聯(lián)合動作a,轉(zhuǎn)移到狀態(tài)s′?的概率,即P(s′|s,a); 多Agent 獎賞函數(shù)R:S×A×S →R,在狀態(tài)s?下,執(zhí)行聯(lián)合動作a,轉(zhuǎn)移到狀態(tài)s′?獲得的立即獎賞r(s,a,s′);z ∈Z≡Zn?表示Agent 對環(huán)境的部分帶噪聲(不完全信息) 觀測,zi∈Zi?是單個Agent 對環(huán)境的觀測;O?:S × N →Z 表示環(huán)境狀態(tài)s?下,單個Agent 的觀測狀態(tài)函數(shù)O(s,i)=zi;γ?是折扣因子,代表長期獎賞與立即獎賞之間的權(quán)衡.

在多Agent 環(huán)境中,Agent 利用自身的動作-觀測歷史τi∈Ti=(Zi×Ai)*?以及當前時間步的觀測zi,決策Agent 采取動作ai?的概率πi(ai|τi,zi) :Ti×Ui→[0,1],執(zhí)行后將該動作-觀測添加到歷史存儲中τi←τi×(zi,ai).

在POMDP 中,單個Agent 的狀態(tài)-動作值函數(shù)Q(zi,ai) 的貝爾曼方程表示為

a-i?表示狀態(tài)s?下,除Agenti?外的Agent 動作集合;p(s|zi) 表示Agent 當前局部觀測對應的全局狀態(tài)的映射關(guān)系;π-i(a-i|τ-i,z-i))) 表示對手Agent 在該全局狀態(tài)下的聯(lián)合動作概率;P(s′|s,a)表示全局狀態(tài)和聯(lián)合動作到下一狀態(tài)的轉(zhuǎn)移函數(shù);r(s,a,s′) 表示該全局轉(zhuǎn)移下獲得的全局獎賞;

表示該后繼狀態(tài)下對手Agent 的聯(lián)合觀測概率;

表示該后繼狀態(tài)與對手聯(lián)合觀測下,Agent 局部觀測狀態(tài)的概率.

圖4 面向多Agent 的POMDP Fig.4 Multi-agent-oriented POMDP

2.3 MADRL 分類

針對目前DRL 在多Agent 學習的最新研究進展,根據(jù)DRL 中的神經(jīng)網(wǎng)絡內(nèi)部各Agent 的信息交互發(fā)生階段,本文將現(xiàn)有MADRL 算法分為以下3 類:

1) 全通信集中決策架構(gòu).該決策架構(gòu)中,多Agent 間的通信過程發(fā)生在神經(jīng)網(wǎng)絡內(nèi)部,多Agent通過自我學習通信協(xié)議,決策單元接收各Agent 處理后的局部觀測信息,對觀測信息進行融合,獲得全局信息表征,進而集中決策產(chǎn)生聯(lián)合動作,以通信的方式指導單Agent 的動作,如圖5(a) 所示.全通信集中決策架構(gòu)通過信息融合,感知全局信息,降低了環(huán)境噪聲帶來的信息損失,此外,通過集中決策方式,有力地對單Agent 的動作進行了協(xié)調(diào),使得多Agent 能夠按照一致的目標開展行動.但這一架構(gòu)對系統(tǒng)的時效性要求較高,并對通信系統(tǒng)有很大的依賴,適用于通信時效性要求較低的強化學習場景或一臺PC 對多個Agent 控制的任務.

2) 全通信自主決策架構(gòu).該決策架構(gòu)中,多Agent 間的通信過程發(fā)生在神經(jīng)網(wǎng)絡之前,單個Agent 利用自組網(wǎng)通信拓撲,接收對手2?Agent 的局部觀測信息以及歷史動作,采用嵌入式的方法對接收信息進行融合,并結(jié)合自身的觀測信息(以及對對手的推斷信息) 自主決策,進而協(xié)作的完成任務,如圖5(b) 所示.全通信自主決策架構(gòu)中各Agent 通過通信獲得環(huán)境的全局信息,結(jié)合對對手行為的推斷,自我學習協(xié)作的動作,涌現(xiàn)出協(xié)同能力.該架構(gòu)對Agent 間通信時效性要求相對較低,適用于具備通信條件的RL 任務.相對于全通信集中決策架構(gòu),全通信自主決策架構(gòu)在現(xiàn)實中應用更加廣泛.

3) 欠通信自主決策架構(gòu).在該決策架構(gòu)中,多采用循環(huán)神經(jīng)網(wǎng)絡進行學習,代表Agent 策略的神經(jīng)網(wǎng)絡之間沒有信息交互,單Agent 依靠自我觀測的能力,獲得部分(不完全) 環(huán)境信息,結(jié)合對對手的觀測與推斷,進行自主決策,確定采取的行動,以期涌現(xiàn)出協(xié)同的聯(lián)合行為,協(xié)調(diào)一致的完成任務要求,如圖5(c) 所示.欠通信自主決策架構(gòu)僅依靠自我觀測能力,通過觀測與推斷對手行為,進行自主決策,進而涌現(xiàn)出協(xié)同能力.欠通信自主決策架構(gòu)不依賴通信,適用任一多Agent 環(huán)境.由于缺乏通信,欠通信自主決策架構(gòu)相對上述全通信決策結(jié)構(gòu),對環(huán)境的觀測是部分的、不完全的.這種部分觀測不僅包含觀測的信息有限,也包含觀測帶來的環(huán)境噪聲,受環(huán)境不確定因素的影響更大.此外,該結(jié)構(gòu)也面臨著對手策略變化帶來的環(huán)境非平穩(wěn)性問題.

2.4 全通信集中決策架構(gòu)

圖5 多Agent 決策示意圖
Fig.5 Diagram of multi-agent decision-making

早期的多Agent 集中決策架構(gòu)是關(guān)于多Agent的動作和觀測的聯(lián)合模型,將多Agent 的聯(lián)合觀測映射到聯(lián)合行動,訓練過程同單Agent 強化學習任務一致,如圖6(a) 所示.這一決策架構(gòu)將多Agent問題轉(zhuǎn)換為單Agent 問題,有效解決了Agent 數(shù)量少且固定、動作空間小等MAS 任務中的多Agent間的協(xié)同問題.但是對于Agent 數(shù)量較多、動作空間巨大的強化學習任務,這一架構(gòu)將導致聯(lián)合觀測空間s ∈S=|O1|×|O2|×···×|On|?和聯(lián)合動作空間a ∈A=|A1|×|A2|×···×|An|?隨Agent 數(shù)量增加呈指數(shù)級增長.此外,該架構(gòu)限定了任務中的Agent 的數(shù)量,不能在交互過程中擴展Agent 的數(shù)量,即便是同樣的環(huán)境,不同數(shù)量的Agent 也需要單獨訓練模型,泛化能力弱.

圖6 集中決策架構(gòu)輸出動作分類
Fig.6 Output action classification of centralized decision architecture

在現(xiàn)有的多Agent DRL 研究問題中,人們通常將聯(lián)合動作空間分解,聯(lián)合動作可以看作是每個Agent 動作的組合,聯(lián)合策略可以視作多個子策略的組合,這意味著神經(jīng)網(wǎng)絡的輸出是單個Agent的動作分布,而不是聯(lián)合動作分布,如圖6(b) 所示.這一改變使得動作空間的大小由

降為

同樣,采樣類似的方式可以對觀測空間進行分解.

在全通信集中決策架構(gòu)中,現(xiàn)有研究方法主要集中在隱藏層信息池化共享通信和雙向RNN 通信等兩種手段,通過神經(jīng)網(wǎng)絡的隱藏層間信息傳遞保證全通信條件下Agent 間的協(xié)商.

在基于隱藏層信息池化共享的決策架構(gòu)中,各Agent 通過內(nèi)部隱藏層的交互,在決策過程中進行協(xié)商,進而輸出協(xié)同的聯(lián)合動作.Sukhbaatar 等[54]提出自主學習Agent 間通信協(xié)議的方法,采用包含模塊fi?的多層架構(gòu),利用當前步的隱藏層輸出h?和計算獲得的通信輸出c?迭代地獲得下一決策所需的網(wǎng)絡輸入hK,并根據(jù)最終的網(wǎng)絡輸出q(hK) 選擇執(zhí)行動作.如圖7 所示,sj?表示Agentj?的環(huán)境狀態(tài)觀測,將所有Agent 的聯(lián)合觀測sss={s1,···,sJ}的相關(guān)狀態(tài)表征作為決策的輸入,輸出針對單個Agent 的聯(lián)合動作的結(jié)果a={a1,···,aJ}.在中間的隱藏層中,設(shè)計出自身隱藏層信息和交互隱藏層信息融合的模塊fi,每個Agent 的模塊fi?接收兩個輸入向量:上一階段傳來的隱藏狀態(tài)

以及通信向量

并輸出下一隱藏層信息

其中通信信息為

隱藏層信息為

輸出的隱藏層信息為

σ?為非線性的激活函數(shù).該算法采用平均池化

可以克服Agent 數(shù)量不定,解決MAS 中算法難以擴展Agent 數(shù)量的問題.

圖7 基于隱藏層信息池化共享的集中決策架構(gòu)
Fig.7 Centralized decision architecture based on shared pooling of hidden layers information

基于隱藏層信息池化共享通信的決策架構(gòu)人為設(shè)定通信協(xié)議,利用池化方法對信息進行整合,雖然解決了Agent 間的通信問題以及擴展問題,但針對缺乏先驗知識的任務,難以設(shè)計有效的通信協(xié)議.基于雙向RNN 通信的集中決策架構(gòu)利用雙向RNN 結(jié)構(gòu)的信息存儲特征,自學習Agent 間的通信協(xié)議,克服了通信協(xié)議設(shè)計對任務先驗知識的剛性需求.Peng 等[55]?提出了基于AC 的多Agent 雙向協(xié)作網(wǎng)絡(Bidirectionally-coordinated network,BiCNet),Actor 和critic 網(wǎng)絡均使用雙向LSTM 架構(gòu)將Agent 串聯(lián),在訓練過程中,雙向LSTM 自行學習通信協(xié)議,在輸入端利用Attention 機制從全局態(tài)勢信息中抽取每個Agent 的觀測輸入,輸出行動集合,同樣采用基于Attention 機制的雙向LSTM對動作集合進行評價.

通信協(xié)議的自我學習解決了Agent 間的信息傳遞規(guī)則,但不合適的獎賞會帶來虛假獎賞和產(chǎn)生懶惰Agent 等問題,Sunehag 等[56]?提出了全局獎賞下的值分解網(wǎng)絡,采用DQN 網(wǎng)絡結(jié)構(gòu),對每個Agent設(shè)立獨立Q 值,進而求和獲得聯(lián)合行動的Q 值.他們嘗試了RNN、Dueling Network 等多種組合,考慮了Agent 間多種通信程度,分別對全通信自主決策架構(gòu)、全通信集中決策架構(gòu)以及欠通信分自主決策架構(gòu)進行了學習框架設(shè)計,如圖8 所示.

Kong 等[57]?提出一種將集中決策同自主決策相結(jié)合的主-從多Agent RNN 學習架構(gòu),采用主-從架構(gòu),由中心Agent 指導多個真實執(zhí)行的Agent,充分利用自主決策和集中決策的優(yōu)勢,其中主Agent融合分Agent 的觀測信息并總結(jié)出指導信息,分Agent 根據(jù)指導信息并結(jié)合自身局部觀測信息做出最終動作選擇,類似于足球比賽中教練與球員間的關(guān)系.

2.5 全通信自主決策架構(gòu)

全通信集中決策架構(gòu)利用神經(jīng)網(wǎng)絡的隱藏層將各Agent 的信息進行融合,使得其必須將部分觀測信息在單一的決策主體中進行融合,集中地進行決策,而全通信自主決策架構(gòu)只需在輸入端進行通信,將信息進行本地融合,自主的完成決策過程.

Foerster 等[58]?針對預定義通信協(xié)議在部分環(huán)境中不可用的問題,提出了自適應的端到端的通信協(xié)議學習算法,將通信定義為一組動作,Agent 利用自身觀測以及對手Agent 傳遞的通信動作,采用時序RNN 架構(gòu)輸出通信和決策動作,從而達到協(xié)同行動的目的.根據(jù)通信動作的連續(xù)性,將決策網(wǎng)絡的梯度更新方式分為增強和可微兩類,如圖9 所示,圖9(a) 表示增強更新的應用架構(gòu),Agent 1 接受來自上一階段Agent 2 的通信動作

并結(jié)合自身的觀測

經(jīng)過Action select 模塊,產(chǎn)生傳遞給Agent 2 的通信動作

和對環(huán)境的動作

利用增強算法的梯度傳播的思想對動作進行更新; 圖9(b) 表示可微更新動作的應用框架,通信動作的產(chǎn)生不再通過動作選擇模塊,而是直接將神經(jīng)網(wǎng)絡的通信結(jié)果經(jīng)過離散正規(guī)化單元(discretise/regularise unit,DRU) 后不經(jīng)選擇地傳遞給下一Agent,保證通信動作具有可微性,進而對決策網(wǎng)絡進行更新.

通信動作的學習雖然有一定的研究意義,但通信動作的定義大多需要相關(guān)的領(lǐng)域知識,人們更關(guān)注在既定通信協(xié)議下或自學習通信協(xié)議下,通過本地的態(tài)勢融合感知獲得決策的結(jié)果.在既定通信協(xié)議下,Usunier 等[59]?定義了一種短期、低層次的微操強化學習任務,各Agent 將以通信的方式獲得的局部觀測進行聯(lián)合編碼,利用用于推斷的貪婪MDP,通過多階段的對手行動推理,自主產(chǎn)生協(xié)同行動,并利用零階梯度估計的后向傳播策略對行動策略進行更新.Mao 等[60]?提出了一般性的協(xié)作Actor-critic網(wǎng)絡(Actor-coordinate-critic net,ACCNet),在部分觀測的環(huán)境中從零學習Agent 間的通信協(xié)議,根據(jù)協(xié)作所處的階段,提出了AC-Cnet 架構(gòu),如圖10(b)所示.針對全通信的自主決策結(jié)構(gòu),他們設(shè)計了ACCNet 架構(gòu),對局部狀態(tài)進行嵌入編碼,之后利用預定義/自學習通信協(xié)議對所有局部狀態(tài)編碼進行聯(lián)合編碼,與待決策Agent 的局部狀態(tài)結(jié)合一同作為決策輸入,產(chǎn)生動作.

圖8 多種架構(gòu)下的值分解網(wǎng)絡
Fig.8 Value decomposition network for multiple architecture

圖9 通信流示意圖
Fig.9 Diagram of communication flow

此外,針對個體獎賞帶來的“囚徒困境”,自主決策也可采用聯(lián)合動作評估方法,對行動網(wǎng)絡進行更新.在策略執(zhí)行過程中,Agent 依靠Actor 網(wǎng)絡做出行動選擇,因而在訓練階段采用聯(lián)合動作的Critic函數(shù)對Actor 網(wǎng)絡進行學習更新,不會破壞執(zhí)行過程中的自主決策架構(gòu).Mao 等[60]?利用全局動作獎賞對策略進行評估,有效克服了個體獎賞帶來的問題.Yang 等[61]?提出平均場強化學習,利用總體或鄰近Agent 間的平均相互作用近似Agent 間的相互作用,個體的最優(yōu)策略取決于全體動態(tài),而全局動態(tài)則根據(jù)個體策略集合改變,設(shè)計了面向多Agent 的平均場Q 學習和平均場Actor-critic 算法,并分析了解的收斂性.

2.6 欠通信自主決策架構(gòu)

圖10 決策-協(xié)同-評估網(wǎng)絡架構(gòu)
Fig.10 Actor-coordinator-critic net framework

同單Agent 的強化學習不同,多Agent 自主決策強化學習任務面臨著環(huán)境非平穩(wěn)性的問題.對單個Agent 而言,對手Agent 策略的變化使得環(huán)境的狀態(tài)轉(zhuǎn)移函數(shù)隨時間變化而變化,即

環(huán)境轉(zhuǎn)移函數(shù)可表示為

其中o-i,a-i?表示Agenti?的對手聯(lián)合觀測和聯(lián)合行動.在環(huán)境轉(zhuǎn)移函數(shù)中,轉(zhuǎn)移

ai,a-i) 是平穩(wěn)的,不隨時間改變; 然而,其他Agent 的策略學習,使得聯(lián)合策略π(a-i|o-i) 發(fā)生變化,導致單個Agent 面臨的環(huán)境轉(zhuǎn)移

是非平穩(wěn)的.針對欠通信自主決策面臨的環(huán)境非平穩(wěn),Hernandez-Leal 等[53]?將早期強化學習中處理環(huán)境非平穩(wěn)問題的方法分為忽略、遺忘、響應目標對手、學習對手模型以及心智理論等五類,在此不再贅述.本文結(jié)合當前DRL 的發(fā)展特性,從經(jīng)歷重放、協(xié)作中的“囚徒困境” 以及參數(shù)共享等方面對欠通信自主決策的MAS 進行研究.

Tampuu 等[62]?開展了將DRL 應用到多Agent環(huán)境中的開拓性研究,但沒有考慮環(huán)境的非平穩(wěn)性,通過設(shè)計不同的全局獎賞函數(shù),采用兩個獨立自主的DQN 網(wǎng)絡對合作、競爭和合競等多Agent 強化學習任務進行訓練,取得了較好的效果.由于環(huán)境的非平穩(wěn)性,在自主Q 學習強化學習任務中,經(jīng)歷重放機制所存儲的經(jīng)歷不能反映當前環(huán)境的動態(tài)性.Omidshafiei 等[63]?忽略環(huán)境非平穩(wěn)問題,依舊利用經(jīng)歷重放機制,采用分散滯后深度RNN 的Q 網(wǎng)絡(Dec-HDRQNs) 架構(gòu),克服環(huán)境非平穩(wěn)帶來的值估計偏差.他們根據(jù)單Agent 的TD error 有選擇得對策略進行更新

當TD error 非負時,采用正常學習率α?更新,否則使用較小的學習率進行更新.此外,為了使得策略具有較好的泛化能力,他們采用多任務(Multi-task)對Dec-HDRQNs 的策略進行過濾.Palmer 等[64]?則將Lenient 應用到MADRL 中,隨訪問次數(shù)的增加而增大接受負TD error 的概率,并認為在實驗中先進行普通Q 學習,再進行Double Q 學習的混合Q學習有更好的學習效果.Foerster 等[65]?則針對環(huán)境非平穩(wěn)性的來源,提出了離環(huán)境下的重要性采用方法,對內(nèi)存中的經(jīng)歷進行了重用,并使用指紋法記錄環(huán)境中其余Agent 的動態(tài)變化信息,使得經(jīng)歷重放機制在多Agent 環(huán)境中依然適用,離環(huán)境下的重要度采樣損失函數(shù)定義為

其中,

表示除Agenti?外,其他Agent 在當前策略下的聯(lián)合動作產(chǎn)生概率;

表示除Agenti?外,其他Agent 聯(lián)合動作在離環(huán)境下的產(chǎn)生概率;yl?采用Q 學習的方式獲得.

受非全局獎賞的影響,多Agent 合作存在“囚徒困境” 的問題,Mao 等[60]?提出了A-CCNet 架構(gòu),如圖10(a) 所示,針對欠通信的自主決策架構(gòu),設(shè)計了不依賴通信的A-CCNet 架構(gòu),各Agent 依據(jù)局部狀態(tài)做出動作選擇,將局部的狀態(tài)-動作同對手Agent 的決策結(jié)果相結(jié)合,進行整體評價.Leibo等[66]?利用純粹的自主Q 學習方法,為每個Agent單獨訓練一套參數(shù),重點解決了社會困境中的“囚徒困境” 難題,揭示了社會困境如何影響Agent 間的合作.Facebook AI 研究室[67-68]?在DRL 中利用過往回報來調(diào)節(jié)自身行為,進而獲得較好的合作策略.Menda 等[69]?提出事件驅(qū)動的MADRL 方法,將Agent 的動作分為宏觀和一般兩類動作,宏觀動作由事件驅(qū)動,而一般動作則是自主決策,利用改進的GAE 算法對策略進行求解,允許Agent 在決策中異步執(zhí)行,克服了固定時間步混淆事件發(fā)生順序而帶來的不利影響.Lowe 等[70]?將DDPG 方法擴展到多Agent 學習,通過觀測對手過往行為對對手進行建模,同時構(gòu)建全局Critic 函數(shù)對全局狀態(tài)-自主動作進行評估,并訓練一組Agent 策略提高算法的魯棒性.

全局Critic 函數(shù)雖然克服了“囚徒困境” 問題,但對單個Agent 的Actor 網(wǎng)絡改進指導不足,不能衡量單個Agent 策略對全局Q 值的影響程度,即信用分配問題.Foerster 等[71]?提出了基于Actorcritic 的反事實多Agent (Counterfactual multiagent,COMA) 策略梯度方法,采用集中的Critic函數(shù)對聯(lián)合動作進行評估,各Agent 利用獨自的Actor 策略網(wǎng)絡進行決策.通過固定其他Agent 的行動,使用邊際法確定反事實的基線,進而確定每個Agent 的信用分配

利用獲得優(yōu)勢函數(shù)

(z,(ai,a-i) 對策略網(wǎng)絡進行增強更新,獲得的最好的實驗效果超越了集中決策模型.

共享信息已被證明可以加速強化學習任務的優(yōu)化[72],尤其是多Agent 強化學習任務.如果Agent是同質(zhì)的,則可以利用參數(shù)共享(Parameter sharing,PS) 的方式,即多個Agent 共用一套網(wǎng)絡參數(shù).在PS 機制下,Agent 在訓練中可以使用全體Agent 的仿真經(jīng)歷.此外,同樣的策略網(wǎng)絡,由于不同的Agent 接收不同的觀測狀態(tài)(也可以用相關(guān)的序號區(qū)分即便同觀測的Agent),因而Agent 間可以產(chǎn)生不同的動作.Ellowitz[72]?用強化學習方法,模擬多Agent 優(yōu)化同一任務的系統(tǒng),研究了不同Agent 密度和策略共享的影響,發(fā)現(xiàn)PS 策略減少了達到漸近行為的時間,使得漸近行為獲得較好改善.Gupta 等[73]?將策略梯度、TD error 以及AC等3 種深度強化學學習算法應用到部分可觀測的協(xié)作多Agent 環(huán)境中,在一系列離散和連續(xù)的動作空間任務中,使用基于TRPO 的PS 并發(fā)訓練模式加速了學習過程,并且驗證了循環(huán)網(wǎng)絡的效果優(yōu)于前饋網(wǎng)絡.Chu 等[74]?針對MADDPG 算法[73]?擴展性較差的問題,提出了參數(shù)共享的MADDPG 算法(PS-MADDPG),并針對不同的應用環(huán)境,提出了Actor-critic 網(wǎng)絡均共享、Actor 網(wǎng)絡共享而Critic網(wǎng)絡不共享、Actor 共享而critic 部分共享(共享的部分為公有特征抽取網(wǎng)絡,如CNN 層) 等3 種Actor-critic 共享組合架構(gòu).

2.7 多Agent 實驗平臺

強化學習過程需要不斷同環(huán)境進行交互,環(huán)境對強化學習至關(guān)重要,相關(guān)單位與個人針對多Agent 強化學習研究開發(fā)了多種訓練平臺.

DeepMind 和暴雪公司合作,開發(fā)了一個基于星際爭霸II 游戲的強化學習平臺(StarCraft II learning environment,SC2LE)[75],描述了星際爭霸II 中的觀察、行動和獎勵規(guī)范,并提供了一個基于Python 的開源的接口來與游戲引擎進行通信.除了主要的游戲地圖之外,該平臺還提供了一套專注于“星際爭霸II” 游戲的不同元素的迷你游戲.對于主要的游戲地圖,還提供了來自人類專業(yè)玩家的游戲數(shù)據(jù)的訓練數(shù)據(jù)集.另外,還給出了從這個數(shù)據(jù)訓練的神經(jīng)網(wǎng)絡的初始基線結(jié)果,以預測游戲結(jié)果和玩家動作(https://github.com/deepmind/pysc2).當前針對星際爭霸游戲的DRL 研究主要集中在單元控制的微操(Micro-management) 層面,多采用狀態(tài)間雙方血線變化作為獎賞.不同的訓練結(jié)構(gòu)對狀態(tài)有不同的表示方法,可分為單元附近狀態(tài)的局部觀測與所有單元的全局觀測.Usunier 等[59]?利用全通信自主決策架構(gòu),通過參數(shù)共享的方式訓練單個網(wǎng)絡對多個同類Agent 進行控制,使用無梯度估計對策略網(wǎng)絡進行更新,相對其他算法,該方法最多可以控制15 個單元.Peng 等[55]?利用雙向LSTM 網(wǎng)絡,搭建了全通信集中決策架構(gòu),集中的網(wǎng)絡決策輸出每個Agent 的動作,在不同尺度上具有較好的效果,學習的動作部分具有較好的可解釋性.Kong等[57]?結(jié)合了集中決策和自主決策的優(yōu)勢,采用主-從架構(gòu)的全通信集中決策架構(gòu),在十個以上單位的對抗中,超越了之前的所有算法.Foerster 等[65]?通過指紋法和重要性權(quán)重的方法,重用歷史經(jīng)歷,采用欠通信的自主決策架構(gòu)在較小的戰(zhàn)斗場景中取得了不錯的成績.在之后的研究中,Foerster 等[71]?使用了集中的Critic 和分散的Actor 架構(gòu)的Actorcritic 算法,采用反事實的基線獲得動作優(yōu)勢函數(shù),解決了多Agent 問題中的信用分配,在欠通信自主決策架構(gòu)中取得了最好的效果,而且能夠控制十個以上的單元.

上海交通大學開發(fā)了一種支持多Agent 強化學習研究和發(fā)展的MAgent 平臺[76],該平臺聚焦含成千上萬Agent 的任務和應用.在Agent 間的相互作用中,該平臺不僅能夠開展Agent 最優(yōu)策略學習的算法研究,而且能夠觀察和理解AI 社會中出現(xiàn)的個體行為和社會現(xiàn)象,包括溝通語言、領(lǐng)導力、利他主義.同時,MAgent 具有高度的可擴展性,可以在單個GPU 服務器上托管多達一百萬個代理,還為AI 研究人員提供靈活的配置,以設(shè)計他們的定制環(huán)境和Agent,該平臺給出了基于欠通信自主決策的獨立Q 學習和A2C 的基線算法(https://github.com/geek-ai/MAgent).在MAgent 平臺中,Yang 等[61]?構(gòu)建了混合合作-競爭的戰(zhàn)斗游戲,兩支包含64 個Agent 的隊伍進行對抗,每個Agent 的狀態(tài)觀測來自于全局狀態(tài)觀測,Q 值對自身動作和周圍鄰居平均動作的組合進行評估,有效的將多體問題轉(zhuǎn)換為二體問題,并使用了平均場Q 學習和平均場AC 同平臺的獨立Q 學習和A2C 基線算法進行了對比,平均場算法在勝率和累積獎賞值中遠超基線算法.Khan 等[77]?在MAgent 平臺中構(gòu)建了合作、競爭以及合競等3 種多Agent 環(huán)境,采用全通信的自主決策架構(gòu)的分布式多Agent 策略梯度算法,環(huán)境中的每個Agent 可以獲得其他Agent 的相對位置與速度、靜態(tài)障礙物的位置,在所有實驗中使用包含100 個隱藏單元的兩層全連接層對值網(wǎng)絡和策略網(wǎng)絡進行估計.所有算法同全通信集中決策的A3C 和TRPO 的基線算法進行比較,3 種環(huán)境下收斂速度明顯優(yōu)于基線算法.Chen 等[78]?提出了一種全通信自主決策下的多Agent 分散Q 學習架構(gòu),將全局觀測與聯(lián)合動作進行分解,利用分解的Agent 的值函數(shù)和剩余Agent 的聯(lián)合值函數(shù)獲得當前狀態(tài)的值函數(shù),采用Duling 架構(gòu)的設(shè)計思想,采用分解Agent 的Q 值函數(shù)與當前狀態(tài)值函數(shù)獲得當前聯(lián)合動作Q 值函數(shù).在MAgent 平臺下的戰(zhàn)斗場景中,同基線算法以及平均場Q 學習算法進行了對比,從殺敵數(shù)量、單Agent 單步平均獎賞和全體累積獎賞等方面進行分析,該算法架構(gòu)取得了很好的效果.

Brodeur 等[79]?提出了一個面向人工Agent 的家庭多模態(tài)環(huán)境(Household multimodal environment,HoME),在逼真的環(huán)境下,從視覺、音頻、語義、物理以及與對象和其他Agent 的交互等方面進行學習.HoME 基于SUNCG 數(shù)據(jù)集,集合了超過45 000 種不同的3D 房屋布局,這個尺度可以促進學習,泛化和遷移.該環(huán)境是一個開放源代碼,與OpenAI Gym 平臺兼容,可擴展到強化學習、基于聲音的導航、機器人以及多Agent 學習等任務(https://github.com/HoMEPlatform/home-platform).HoME 側(cè)重于室內(nèi)3D環(huán)境下的圖像研究,利用該平臺進行多Agent 研究的學者較少,但隨著圖像技術(shù)的發(fā)展,室內(nèi)異質(zhì)多Agent 協(xié)同也將是通用人工智能的熱點之一.

此外,Facebook AI 研究室提出一個面向即時戰(zhàn)略游戲(Real-time strategy game,RTS) 的廣泛的、輕量級的和靈活得多的Agent 強化學習平臺ELF (Extensive,lightweight and flexible research platform)[80],實現(xiàn)了具有3 種游戲環(huán)境(Mini-RTS、奪旗和塔防) 的高度可定制的RTS 引擎.該平臺在Environment-agent 通信拓撲,強化學習方法選擇游戲參數(shù)變化等方面靈活多樣,并且可以托管現(xiàn)有基于C/C++的游戲環(huán)境,如ALF(Arcade learning environment).同樣開發(fā)了相應的Python 接口,利用Python 接口可以返回經(jīng)歷樣本,方便進行強化學習訓練(https://github.com/facebookresearch/ELF).ELF 提供的為兩人對抗的視頻游戲場景,同Starcraft 相比,Agent 數(shù)量較少,不是多Agent 研究的主流,多為對抗游戲的測試環(huán)境.

3 MADRL 中的關(guān)鍵問題及其展望

MADRL 決策架構(gòu)研究對當前MAS 的強化學習決策結(jié)構(gòu)進行了分析與討論,但MADRL 仍面臨著多Agent 訓練要素的研究,即構(gòu)建何種訓練結(jié)構(gòu)可以使得Agent 能夠不依賴人類知識而由弱到強的進行學習,如何構(gòu)建合適的模型能夠更加準確的描述MAS,針對特定的MAS 采用何種決策架構(gòu)等;此外,PS 機制雖然使得單個Agent 擁有足量的訓練樣本,但當前MAS 系統(tǒng)仿真難度大,總體樣本數(shù)量依然有限,數(shù)據(jù)效率低,因而,需要利用已有樣本對整體樣本進行增強,滿足訓練的樣本量需求以及如何提高數(shù)據(jù)效率; 同時,DRL 訓練通常面臨著對環(huán)境過擬合的問題,而MADRL 則面臨著對對手和環(huán)境的雙重過擬合問題,需要采用對抗機制提高MADRL 算法的魯棒性; 在自主決策架構(gòu)中,受限于不完全環(huán)境信息,需要充分考慮對手模型,學習對手行為,進而產(chǎn)生協(xié)同行為; 另外,當前多Agent 逆強化學習的研究仍是一片空白.本節(jié)針對這些實用技術(shù)展開分析與研究.

3.1 多Agent 訓練要素研究

單個Agent 的DRL 任務,只需要一個環(huán)境和部分環(huán)境參數(shù),經(jīng)過一定時間的訓練就可以獲得“令人滿意” 的Agent.多Agent 任務相比單Agent 任務復雜許多,往往包含較多的因素,并且構(gòu)建復雜的多Agent 環(huán)境往往是不切實際的,而真實環(huán)境又難以獲得DRL 訓練所需的大樣本.

AlphaGo Zero[7-8]?利用自博弈的學習方式,不依賴人類知識,從零開始,訓練出強大的圍棋Agent.雖然AlphaGo Zero 是面向單Agent 的強化學習,但從訓練過程分析,其采用了競爭環(huán)境的多Agent共享參數(shù)訓練框架,自博弈的雙方Agent 共用一套網(wǎng)絡參數(shù),增加了訓練的樣本量,并通過對抗式的訓練架構(gòu),在19×19 的簡單環(huán)境中獲得了遠遠超越環(huán)境復雜度的強大Agent.在多Agent 學習中,可以使用類似的訓練過程.Bansal 等[81]?針對Agent的行為容量受限于環(huán)境容量問題,即環(huán)境的復雜度限制了訓練Agent 的復雜度上限,提出了一種同AlphaGo Zero 相似的對抗式的訓練架構(gòu),該架構(gòu)是無模型的強化學習方法,通過從零開始的課程學習,使得帶自博弈的對抗多Agent 環(huán)境可以訓練出遠比環(huán)境本身更復雜的行為.盡管這種對抗訓練方式在單個獨立Agent 環(huán)境中取得很大成功,在多Agent也取得一些進展,但并沒有類似AlphaGo Zero 的重大的突破.

除了對抗學習架構(gòu),博弈論方法為多Agent 研究提供了另外一種思路.Lanctot 等[82]?提出了基于近似最優(yōu)響應的廣義MARL 算法,該算法利用聯(lián)合策略相關(guān)性評估策略的泛化能力,將DRL 策略和實證博弈論分析進行混合,計算策略選擇的元策略,對自主強化學習、迭代最優(yōu)響應、Double Oracle 以及虛構(gòu)對抗等工作進行了泛化研究.

除了訓練架構(gòu)的研究外,對如何構(gòu)建MADRL的模型也存在一定的討論.在對序貫決策的任務建模中,MDP 是當前強化學習算法的主要模型,POMDP 則是多Agent 任務中的一種常見模型.但這一模型不是絕對的.演化博弈論同樣可以針對MADRL 進行有效建模.在將博弈理論引入MAS的早期研究中,已經(jīng)建立了一般強化學習和演化博弈論核心的模仿者動態(tài)(Replicator dynamics) 間的形式化聯(lián)系,在Bloembergen 的綜述[52]?中,他們對這一關(guān)系進行了討論,采用無限學習率的極限,研究了由此產(chǎn)生的動力學系統(tǒng),并深入了解了多Agent 系統(tǒng)的行為,如收斂性、穩(wěn)定性和魯棒性,對每個均衡的關(guān)注點和產(chǎn)生的回報給予額外的關(guān)注,同時對預期的聯(lián)合交互結(jié)果進行評估.

在多Agent 任務的3 種決策架構(gòu)中,集中決策利用集中方法對多Agent 進行協(xié)同,具有無法比擬的優(yōu)勢,在實際的問題研究中,業(yè)界人士多采用這種架構(gòu)[16-19,22].但從理論研究上,研究者們更加關(guān)注多Agent 自主決策,希望通過學習、設(shè)定目標,使得Agent 在執(zhí)行任務時能夠自發(fā)形成期望的協(xié)同動作.即便在未能預先知曉對手的任務中,訓練出自治的Agent 也能夠有效、魯棒的進行協(xié)作,對其他對手提供協(xié)同輔助.針對這種“點對點” 的協(xié)作已開展了部分研究[83-86],但仍留有很大的研究空間,而且在DRL 領(lǐng)域中還沒展開該“點對點” 的協(xié)作模式.

3.2 樣本增強技術(shù)研究

在真實系統(tǒng)上應用強化學習,數(shù)據(jù)采樣速度有限,導致強化學習訓練樣本不足.Huang 等[87]?提出了增強生成對抗網(wǎng)絡(Enhanced GAN,EGAN)初始化強化學習Agent,EGAN 利用狀態(tài)-行為與后繼狀態(tài)-獎賞之間的關(guān)系提高由GAN 生成的樣本的質(zhì)量,以實現(xiàn)更快的學習.Kumar 等[88]為更好理解在線商務中顧客與產(chǎn)品間的關(guān)系,利用GAN 生成仿真交易訂單,針對在線商務交易的特點,對在線訂單構(gòu)建了密集的低維表示,訓練出ecGAN (e-Commerce GAN) 驗證框架的合理性,并結(jié)合條件GAN 生成指定商品的訂單.該方法對多Agent 環(huán)境中的數(shù)據(jù)樣本生成提供了行之有效的架構(gòu).Andersen[89]?在其碩士畢業(yè)論文中研究了用于強化學習的人工訓練樣本生成模型,利用膠囊網(wǎng)絡[90],結(jié)合條件GAN 對環(huán)境中的圖片類狀態(tài)進行了生成,展示了生成數(shù)據(jù)對DQN 訓練的好處.Corneil 等[91]?介紹了變分狀態(tài)表(Variational state tabulation,VaST),能夠?qū)⒕哂懈呔S狀態(tài)空間(例如視覺輸入空間) 的環(huán)境映射到抽象表格環(huán)境,使用高效的優(yōu)先掃描規(guī)劃方法更新狀態(tài)操作值.Nishio等[92]?提出了結(jié)合神經(jīng)情景控制(Neural episodic control)[93]?的NEC2DQN 架構(gòu),在學習的初始階段,加速了樣本匱乏任務的學習速度.這些方法使用現(xiàn)有的GAN 技術(shù)對樣本進行生成,并不依賴環(huán)境的真實動態(tài)性,適用于經(jīng)歷重放機制下的強化學習算法.

上述方法關(guān)注于樣本的真?zhèn)?雖然也有考慮生成樣本間的相關(guān)性,但并沒有考慮環(huán)境本身的轉(zhuǎn)移關(guān)系.在DRL 研究中,無模型方法數(shù)據(jù)利用低效,僅僅使用了轉(zhuǎn)移中的獎賞信號,忽視了樣本的轉(zhuǎn)移過程; 基于模型的方法有較高的數(shù)據(jù)效率,但所獲得的策略往往不是最優(yōu)解.Ha 等[94]?將無模型和基于模型的方法進行結(jié)合-“世界模型”,利用少數(shù)轉(zhuǎn)移樣本,通過混合高斯分布的RNN 學習了虛擬環(huán)境模型,在虛擬環(huán)境中利用進化算法求解策略取得很好的效果.在此基礎(chǔ)上,相關(guān)學者[95-97]?將“世界模型” 概念推廣到更廣闊的環(huán)境中進行驗證,這種夢境下的學習彌補了Agent 同環(huán)境的多頻次交互.這一學習方式,為克服多Agent 環(huán)境中樣本不足提供了一種解決思路,但是如何對多Agent 環(huán)境中的非平穩(wěn)性進行刻畫,還留有相當大的研究空間.

3.3 魯棒性研究

在MAS 中,仿真環(huán)境同現(xiàn)實環(huán)境的差距巨大,這一困境導致在仿真環(huán)境中的策略學習的結(jié)果難以遷移; 另外,即使策略的學習樣本來自于現(xiàn)實環(huán)境,學習數(shù)據(jù)的不足也使得強化學習難以收斂.Pinto等[98]?利用存在對抗對手的環(huán)境,對Agent 進行對抗訓練操作,對手的對抗性隨Agent 能力增強而增強以此提高Agent 的魯棒性.Pattanaik 等[99]?發(fā)現(xiàn)即便很簡單的干擾,都會使得DRL 算法性能大幅衰退,針對該問題他們提出了對抗攻擊的強化學習算法,設(shè)計了簡單擾動和基于梯度擾動的兩種擾動方式,并對DQN 和DDPG 情況下的擾動以及對抗訓練進行了研究,提高算法在參數(shù)不確定環(huán)境中的魯棒性.Mhamdi 等[100]?認為在仿真中可能產(chǎn)生的中斷是學習過程的一部分,Agent 要有能力在安全的中斷中進行學習,并將這些影響它們獎勵的干擾與特定的狀態(tài)聯(lián)系起來,從而有效避免中斷,在聯(lián)合行動學習者和自主學習者兩個學習框架中研究這個概念,并對動態(tài)安全可中斷性進行了定義,實驗證明如果Agent 可以檢測到中斷,那么即使對于自主學習者,也可以修剪狀態(tài)以確保動態(tài)安全中斷.上述研究通過建立帶有擾動的環(huán)境提高Agent 的魯棒性.現(xiàn)有研究認為在有限的時間內(nèi),DRL 總能在單Agent 任務中尋找到較優(yōu)的策略,這一學習過程的本質(zhì)是對訓練環(huán)境的過擬合,因而在DL 用于克服過擬合的方法在單Agent 的DRL 任務中仍舊適用.而在多Agent 研究中的過擬合問題更加嚴重,不僅存在對環(huán)境的過擬合,同樣也存在著對對手的過擬合.雙重過擬合問題是MADRL 中的一大難點,決定著MAS 能不能進行可靠的應用.

另外,從遷移學習派生出來的信息也可以推廣到多Agent 情景來克服MADRL 的弱魯棒性,如課程學習.遷移學習算法利用學習中獲得的經(jīng)歷來對模型進行泛化,以改善Agent 在不同但相關(guān)的任務中的學習效果.遷移泛化能力在非平穩(wěn)環(huán)境中的表現(xiàn)尤為重要,特別是多Agent 中對抗對手模型變化帶來的環(huán)境的不可預知的變化(協(xié)同Agent 的策略變化處于一種可獲知的變化).例如,如果對手經(jīng)常發(fā)生變化,已有的先驗信息(以模型、規(guī)則或策略等形式)將有助于快速制定Agent 的策略.在現(xiàn)有的多Agent 學習中,重復使用對手過去的策略也有體現(xiàn),是當前克服模型過擬合的一種通用手段[63,81,101].現(xiàn)有技術(shù)適用于單個獨立的Agent,重用遷移不同Agent 的信息仍是一個有待解決的問題,向Agent提供建議也是一個待發(fā)展的方向.

此外,在MAS 中,環(huán)境中的Agent 在交互中產(chǎn)生和消亡也是可能的(例如,星際爭霸游戲中己方Agent 死亡),這將影響環(huán)境以及其他Agent 的策略.針對這類場景,是將每個可能消失/產(chǎn)生的Agent 單獨建模,或者利用參數(shù)共享,搭建可擴展的訓練架構(gòu)[55,59-60,71,102-103].同時,在大多數(shù)多Agent 學習算法中通常假定Agent 間的交互在所有的Agent間同時發(fā)生.然而,在現(xiàn)實世界的情況下,情況并非總是如此,這種通信交互往往是異步的,而不同的Agent 具有不同的響應時間.目前的學習算法能否在這些條件下工作仍然是一個懸而未決的問題.

與數(shù)量較大的Agent 進行交互往往帶來很大的問題,因而現(xiàn)有的大多數(shù)算法在環(huán)境中僅設(shè)置了較少的Agent 進行算法驗證.然而,將這些算法應用到大規(guī)模Agent 環(huán)境中,往往面臨著無法適應的問題.為了獲得高效和可擴展的算法,人們需要犧牲某些細節(jié),更加關(guān)注Agent 對整體最佳響應,而不是個體Agent 的最佳響應.想要克服這一問題,可以通過確定Agent 間交互的程度,考慮Agent 是否應該同某一Agent 進行交互、還是僅將其當作環(huán)境的一部分而不進行交互[63,104].

3.4 對手建模研究

在多Agent 任務中,存在著動作探索的風險.當多Agent 同時進行探索時,各Agent 都要面臨這種噪聲,往往造成全盤皆輸?shù)木置?同樣的問題也出現(xiàn)在多Agent 深度強化學習設(shè)置中[59],在不能進行通信協(xié)調(diào)的任務中,該問題顯得更加復雜.而且在MAS 中,Agent 是多種多樣的,在多Agent 系統(tǒng)中可能包含著各種各樣的Agent,它們的目標、感知以及獎賞都有可能是不同的.這種混雜的多Agent任務為最優(yōu)行動的學習帶來了極大的挑戰(zhàn).在多Agent 決策中,需要考慮對隊友與對抗對手的理解.在全通信中,Agent 通過通信完成了對己方協(xié)同Agent 的行為推斷,但對對抗Agent 仍需要進行觀察與學習; 在欠通信中,Agent 不僅要對協(xié)同Agent的行為進行分析與判斷,同時也要考慮對抗Agent的行為,對其進行分析與預測.Lowe 等[105]?利用對手的歷史行為對對手的策略進行推斷,通過最大化對手Agent 的動作概率來近似對手策略,定義損失函數(shù)為

其中oj?和aj?表示待近似的Agentj?的觀測和實際執(zhí)行動作,

表示對于決策Agenti?而言的對手Agent?j?的近似策略,H?表示策略分布的熵.Rabinowitz等[106]?提出了一種使得機器可以學習他人心理狀態(tài)的心智理論神經(jīng)網(wǎng)絡(Theory of mind network,ToMnet),通過觀察Agent 的行為,使用元學習對它們進行建模,得到一個對Agent 行為具備強大先驗知識的模型,該模型能夠利用少量的行為觀測,對Agent 特征和心理狀態(tài)進行更豐富的預測.如圖11所示,特征網(wǎng)絡從POMDP 集合中解析Agent 過去的軌跡,從而形成嵌入表示echar.心理狀態(tài)表示網(wǎng)絡的心智網(wǎng)絡解析當前片段中Agent 的軌跡,形成心理狀態(tài)嵌入emental.然后,這些嵌入被輸入至預測網(wǎng)絡Prediction net,結(jié)合當前狀態(tài)對Agent 未來行為進行預測,如下一步動作概率

、特定對象被消耗的概率

和預測后繼者表示

圖11 心智網(wǎng)絡
Fig.11 Mind theory neural network

上述對手建模研究聚焦于建立概率模型和參數(shù)化策略,He 等[107]?提出了同步學習對手策略和模型的神經(jīng)網(wǎng)絡模型,將對手觀測嵌入編碼輸入DQN中,而不是顯式地預測對手動作.使用混合專家架構(gòu),無需額外的監(jiān)督信息即可發(fā)現(xiàn)多種策略,并利用估計權(quán)重對多個策略Q 值進行加權(quán)求和,進而獲得最優(yōu)的行動.Foerster 等[108]?針對合作-競爭的多Agent 學習環(huán)境,提出與對手-學習意識(Learning with opponent-learning awareness,LOLA)的學習方法,該模型考慮對手策略的策略更新方式,推理其他Agent 的預期學習,通過對狀態(tài)值V?1(θ1,θ2?+Δθ2)≈V?1(θ1,θ2)+(Δθ2)T?θ2V?1(θ1,θ2) 進行一階泰勒展開,獲得決策Agent 的值函數(shù)梯度,針對合作對手和競爭對手采用兩種不同的更新方式.Hong等[109]?根據(jù)預測對手動作的網(wǎng)絡,從隱藏層中提取對手的行動意圖作為決策依據(jù),設(shè)計適應性的損失函數(shù)調(diào)整訓練的關(guān)注點,并將RNN 架構(gòu)引入Q網(wǎng)絡的訓練中,提出了深度循環(huán)策略推斷Q 網(wǎng)絡(Deep recurrent policy inference Q-network,DRPIQN).Raileanu 等[110]?提出自主對手建模(Self other-modeling,SOM),通過觀測對手行動,根據(jù)已有的行動意圖集以及單獨的神經(jīng)網(wǎng)絡在線構(gòu)建對手模型,判斷對手的意圖,最終結(jié)合當前狀態(tài)以及自我意圖進行決策.

在上述學習算法中往往假設(shè)知曉對手的相關(guān)域知識,如可正確描述對手觀測的屬性和特征,然而現(xiàn)實世界中,總有許多事情是不可預知的,總有些實體是不期而遇的.在這種情況下,可以構(gòu)建一組已知的不確定對手特征表示,通過特定的概率分布來推斷正確的對手行為.同樣也可以采用多任務學習,構(gòu)建多個可能的環(huán)境和對手對Agent 進行訓練.然而在執(zhí)行中,仍會存在一些之前沒有遇到過的對手,不可能構(gòu)建一個包含全體要素的環(huán)境,但現(xiàn)實的世界卻有著種種不可預知的要素,如何克服這種不確定性為系統(tǒng)帶來的風險,也是值得研究的一個方向.

4 結(jié)論

盡管DRL 在一些單Agent 復雜序列決策任務中取得了卓越的效果,但多Agent 環(huán)境下的學習任務中任然面臨諸多挑戰(zhàn),另一方面,人類社會中很多問題都可以抽象為復雜MAS 問題,所以,在這個領(lǐng)域需要進一步地深入探索.現(xiàn)有多Agent 學習綜述多同博弈論關(guān)聯(lián),但伴隨著DRL 的產(chǎn)生與發(fā)展,國內(nèi)外尚沒有一份關(guān)于MADRL 的綜述.我們通過總結(jié)近些年深度強化學習以及多Agent 深度強化學習方面的論文,從訓練架構(gòu)以及實現(xiàn)技巧方面著手,撰寫此文.MADRL 是DRL 在多Agent 領(lǐng)域的擴展.本文首先對強化學習的基本方法以及DRL 的主要方法進行了介紹與分析; 在此基礎(chǔ)上,從通信和決策架構(gòu)方面對MADRL 進行分類,抽象為全通信集中決策、全通信自主決策、欠通信自主決策三類,并對一些開放的多Agent 訓練環(huán)境進行了簡要介紹; 然后,對多Agent 深度強化學習中需要用到的實用技術(shù)進行了分析與討論,包含多Agent 訓練框架、樣本增強、魯棒性以及對手建模等一些關(guān)鍵問題,并根據(jù)對這些關(guān)鍵問題的認識,給出MADRL 領(lǐng)域的發(fā)展展望,對仍待研究的問題進行了探討.

隨著深度強化學習的繼續(xù)發(fā)展,在MAS 中的應用以及研究也將越來越廣泛,但其訓練和執(zhí)行方式也將屬于這3 種形式之一.我們的研究旨在對當前的MADRL 研究現(xiàn)狀進行整理與歸納,為希望將DRL 應用于MAS 的學者或機構(gòu)提供一份可供參考的概覽.

審核編輯：符乾江

閱讀全文

機器學習(130422) 機器學習(130422)
大數(shù)據(jù)(136504) 大數(shù)據(jù)(136504)
深度學習(119795) 深度學習(119795)

評論

查看更多

相關(guān)推薦

Zebra Aurora深度學習OCR算法榮獲CAIMRS頒發(fā)的自動化創(chuàng)新獎

在第二十二屆中國自動化及數(shù)字化年度評選活動中，Zebra Aurora深度學習OCR算法獲得了由中國自動化及數(shù)字化產(chǎn)業(yè)年會(簡稱CAIMRS)頒發(fā)的自動化創(chuàng)新獎。

2024-03-20 16:35:15

155

什么是電化學電容器？電化學超級電容器有什么特點？

什么是電化學電容器？電化學超級電容器有什么特點？電化學電容器是一種儲能裝置，它利用電化學反應將電能轉(zhuǎn)化為化學能，進而存儲電荷。與傳統(tǒng)的電容器相比，電化學電容器具有更大的能量儲存能力和更高的功率密度

2024-03-05 16:30:07

155

Sora與世界模型：為何它未能成為全面代表？

當AI領(lǐng)域中講到世界/world、環(huán)境/environment 這個詞的時候，通常是為了與智能體/agent 加以區(qū)分。研究智能體最多的領(lǐng)域，一個是強化學習，一個是機器人領(lǐng)域。

2024-02-29 12:37:07

423

OLED材料廠商九目化學開啟上市輔導

近日，煙臺九目化學股份有限公司（以下簡稱“九目化學”）已在山東證監(jiān)局進行了輔導備案，正式開啟IPO之路。

2024-02-26 14:24:12

267

一文詳解Transformer神經(jīng)網(wǎng)絡模型

Transformer模型在強化學習領(lǐng)域的應用主要是應用于策略學習和值函數(shù)近似。強化學習是指讓機器在與環(huán)境互動的過程中，通過試錯來學習最優(yōu)的行為策略。

2024-02-20 09:55:35

344

碳化硅晶片的化學機械拋光技術(shù)研究

材料去除的影響。重點綜述了傳統(tǒng)化學機械拋光技術(shù)中的游離磨料和固結(jié)磨料工藝以及化學機械拋光的輔助增效工藝。同時從工藝條件、加工效果、加工特點及去除機理 4 個方面歸納了不同形式的化學機械拋光技術(shù)，最后對碳化硅的化學機械拋光技術(shù)的未來發(fā)展方向進行了展望，并對今后研究的側(cè)重點提出了相關(guān)思路。

2024-01-24 09:16:36

431

兩種端到端的自動駕駛系統(tǒng)算法架構(gòu)

基于學習的自動駕駛是一個活躍的研究領(lǐng)域。采用了一些基于學習的駕駛方法，例如可供性和強化學習，取得了不錯的性能，模仿方法也被用來回歸人類演示的控制命令。

2024-01-18 09:33:39

306

CASAIM與LG化學越南工廠達成全自動化智能測量技術(shù)合作，助力汽車鋰電池相關(guān)零部件全自動化測量及質(zhì)量管控

近日，CASAIM與LG化學越南工廠達成全自動化智能測量技術(shù)合作，CASAIM將為LG化學越南工廠提供最新一代的CASAIM-IS全自動化測量系統(tǒng)解決方案，助力LG化學越南工廠實現(xiàn)汽車鋰電池相關(guān)

2024-01-16 15:47:43

96

深度解析ADuCM355+LTC6078 電化學測量系統(tǒng)

為了使電化學傳感器工作，需要搭建的電路系統(tǒng)被稱為恒電位電路。以三端式電化學氣體傳感器為例，如圖所示。需要搭建的電路包括偏置電壓源、電位保持、電流轉(zhuǎn)電壓、濾波、模數(shù)轉(zhuǎn)換等，再送入MCU中進行數(shù)據(jù)處理。

2024-01-06 10:34:25

902

RL究竟是如何與LLM做結(jié)合的？

強化學習（Reinforcement Learning, RL）的核心概念可簡單概括為：一個機器人（Agent）在看到了一些信息（Observation）后，自己做出一個決策（Action），隨即根據(jù)采取決策后得到的反饋（Reward）來進行自我學習（Learning）的過程。

2024-01-03 16:34:07

668

電化學阻抗譜在燃料電池不同尺度上的應用

隨著電信號采集和分析技術(shù)的發(fā)展成熟，電化學阻抗譜（Electrochemical impedance spectroscopy，EIS）測量技術(shù)在燃料電池領(lǐng)域得到了廣泛的應用。EIS是一種用于表征

2023-12-25 17:14:39

271

揭秘pcb是什么物質(zhì)：你不知道的“化學戰(zhàn)士”

揭秘pcb是什么物質(zhì)：你不知道的“化學戰(zhàn)士”

2023-12-14 10:27:30

302

LabVIEW開發(fā)新型電化學性能測試設(shè)備

。LabVIEW使用戶能夠靈活地設(shè)計和執(zhí)行實驗測試，提高了測試過程的自動化和精確度。硬件設(shè)計：微控制器單元（MCU）：使用Arduino DUE，采用32位ARM架構(gòu)。數(shù)字模擬轉(zhuǎn)換器（DAC）和模擬數(shù)字

2023-12-10 21:00:05

?cmp工藝是什么？化學機械研磨工藝操作的基本介紹

化學機械研磨工藝操作的基本介紹以及其比單純物理研磨的優(yōu)勢介紹。

2023-11-29 10:05:09

348

Neuro-T：零代碼自動深度學習訓練平臺

友思特 Neuro-T為傳統(tǒng)的深度學習視覺檢測方案提供了“自動深度學習”的解決方案，結(jié)合自動標注功能，一鍵生成高性能視覺檢測模型，無需AI領(lǐng)域?qū)I(yè)知識即可創(chuàng)建深度學習視覺檢測模型。

2023-11-24 17:58:33

242

微流控紡絲化學綜述與展望

微流控技術(shù)是一項能夠?qū)ξ⑼ǖ乐械牧黧w進行精確和系統(tǒng)操縱的先進技術(shù)。該技術(shù)能夠在微平臺上靈活組合多功能組件，在微流控芯片內(nèi)實現(xiàn)微流控紡絲化學反應，與傳統(tǒng)紡絲方法相比，此紡絲過程不再是一種物理牽伸的過程，而是一個紡

2023-11-19 16:05:19

549

深度學習技術(shù)與邊緣學習技術(shù)的不同之處

如今，AI技術(shù)的廣泛應用已經(jīng)成為推動制造和物流領(lǐng)域自動化的核心驅(qū)動力?？的鸵曀瞥龅?b class="flag-6" style="color: red">深度學習和邊緣學習技術(shù)，這兩種基于AI的技術(shù)，在工業(yè)自動化領(lǐng)域有著廣泛的應用前景。然而，由于這兩種技術(shù)在研發(fā)

2023-11-17 10:44:29

242

電化學傳感器的設(shè)計

電子發(fā)燒友網(wǎng)站提供《電化學傳感器的設(shè)計.pdf》資料免費下載

2023-11-16 16:13:14

6

自動化圖像測量儀

中圖儀器VX8000自動化圖像測量儀改變了影像儀采用光柵尺測量的定律，采用遠心成像技術(shù)+高像素工業(yè)相機結(jié)合，并采用智能算法，從而達到快速測量的效果。VX8000自動化圖像測量儀具有操作簡單、測試

2023-11-10 13:35:07

機器人和自動化學習機會

Hine Automation和ROOTS Education在合作創(chuàng)造主題更加相關(guān)、更易獲得的機器人和自動化學習機會。此次合作是一項積極舉措，旨在確保半導體行業(yè)擁有所需的訓練有素的勞動力，以解決技能短缺問題并在未來幾年蓬勃發(fā)展。

2023-11-07 16:08:42

150

中科慧眼榮獲2023中國自動化學會技術(shù)發(fā)明獎二等獎

近日，中科慧眼核心團隊以“智能汽車雙目感知系統(tǒng)”項目榮獲2023中國自動化學會（CAA）技術(shù)發(fā)明獎二等獎。

2023-11-01 18:27:51

457

什么是強化學習

強化學習是機器學習的方式之一，它與監(jiān)督學習、無監(jiān)督學習并列，是三種機器學習訓練方法之一。在圍棋上擊敗世界第一李世石的 AlphaGo、在《星際爭霸2》中以 10：1 擊敗了人類頂級職業(yè)玩家

2023-10-30 11:36:40

1042

分享一款能連arduino仿真的電化學軟件

分享一款能連arduino仿真的電化學軟件，能模擬多種檢測方法，適合仿真環(huán)境文件如下：

2023-10-10 06:52:48

深度學習的由來深度學習的經(jīng)典算法有哪些

深度學習作為機器學習的一個分支，其學習方法可以分為監(jiān)督學習和無監(jiān)督學習。兩種方法都具有其獨特的學習模型：多層感知機、卷積神經(jīng)網(wǎng)絡等屬于監(jiān) 督學習；深度置信網(wǎng) 、自動編碼器、去噪自動編碼器、稀疏編碼等屬于無監(jiān)督學習。

2023-10-09 10:23:42

301

NeurIPS 2023 | 擴散模型解決多任務強化學習問題

擴散模型（diffusion model）在 CV 領(lǐng)域甚至 NLP 領(lǐng)域都已經(jīng)有了令人印象深刻的表現(xiàn)。最近的一些工作開始將 diffusion model 用于強化學習（RL）中來解決序列決策問題

2023-10-02 10:45:02

401

基于一種增強型光譜電化學裝置

光譜電化學（SEC）測量在分析化學中起著至關(guān)重要的作用，利用透明或半透明電極對電化學過程進行光學分析。電化學讀數(shù)提供了有關(guān)電極狀態(tài)的信息，而透射光譜的變化有助于識別電化學反應的產(chǎn)物。據(jù)麥姆斯咨詢

2023-09-26 09:11:38

645

耐化學試劑試驗

服務內(nèi)容廣電計量是國內(nèi)鹽霧試驗能力較完善的權(quán)威檢測認證服務機構(gòu)之一，為您提供專業(yè)的耐化學試劑試驗和產(chǎn)品評價。服務范圍本商品可提供針對汽車零部件、電動工具、家用電器、信息技術(shù)設(shè)備、醫(yī)療設(shè)備、電源設(shè)備

2023-09-21 16:55:57

化學機械拋光(CMP) 技術(shù)的發(fā)展應用及存在問題

性能和速度上同時滿足了圓片圖形加工的要求。CMP 技術(shù)是機械削磨和化學腐蝕的組合技術(shù) , 它借助超微粒子的研磨作用以及漿料的化學腐蝕作用在被研磨的介質(zhì)表面上形成光潔平坦表面[2、3] 。CMP 技術(shù)對于

2023-09-19 07:23:03

能連arduino仿真的電化學軟件

電子發(fā)燒友網(wǎng)站提供《能連arduino仿真的電化學軟件.zip》資料免費下載

2023-09-18 09:25:26

5

化學品酸堿輸送供應管道為什么要選擇華林科納PFA管？

很多半導體、光伏行業(yè)的制造企業(yè)在選擇化學品酸堿輸送供應管道時，都喜歡選擇華林科納的高純PFA管，選擇華林科納生產(chǎn)的高純PFA管作為化學品酸堿輸送供應管道有以下幾個重要原因： 1、優(yōu)異的化學穩(wěn)定性

2023-09-13 17:29:48

266

瑯菱涂料自動化產(chǎn)線的優(yōu)勢

涂料指的是能夠包裹在被涂覆材料的表面，形成保護、裝飾等作用的連續(xù)薄膜，它的成分通常含有油脂、樹脂等內(nèi)容，還會選擇是否添加輔助劑、顏料等合成類化學元素。涂料自動化產(chǎn)線是集乳化、分散研磨、細化冷卻、過濾

2023-09-06 18:04:24

319

一文詳解機器學習和深度學習的區(qū)別

深度學習這幾年特別火，就像5年前的大數(shù)據(jù)一樣，不過深度學習其主要還是屬于機器學習的范疇領(lǐng)域內(nèi)，所以這篇文章里面我們來嘮一嘮機器學習和深度學習的算法流程區(qū)別。

2023-09-06 12:48:40

1174

模擬矩陣在深度強化學習智能控制系統(tǒng)中的應用

訊維模擬矩陣在深度強化學習智能控制系統(tǒng)中的應用主要是通過構(gòu)建一個包含多種環(huán)境信息和動作空間的模擬矩陣，來模擬和預測深度強化學習智能控制系統(tǒng)在不同環(huán)境下的表現(xiàn)和效果，從而優(yōu)化控制策略和提高系統(tǒng)的性能

2023-09-04 14:26:36

294

半導體工藝里的濕法化學腐蝕

濕法腐蝕在半導體工藝里面占有很重要的一塊。不懂化學的芯片工程師是做不好芯片工藝的。

2023-08-30 10:09:04

1705

九目化學擬分拆上市拓寬OLED材料產(chǎn)業(yè)融資渠道

“九目化學主要從事OLED升華前材料及其他功能性材料業(yè)務，近年來九目化學的相關(guān)業(yè)務持續(xù)發(fā)展，目前九目化學為業(yè)內(nèi)領(lǐng)先的OLED升華前材料企業(yè)?！比f潤股份介紹，為深入貫徹落實國務院國有資產(chǎn)監(jiān)督管理委員會關(guān)于提高央企控股上市公司質(zhì)量的有關(guān)要求

2023-08-22 15:05:16

455

研發(fā)電化學和電化學發(fā)光雙模式適配體傳感器！

傳感新品【石河子大學：研發(fā)電化學和電化學發(fā)光雙模式適配體傳感器！】研究內(nèi)容交鏈孢酚(AOH)是絲狀真菌產(chǎn)生的次生代謝產(chǎn)物，常見于水果、蔬菜和糧食作物中。它是一種不可避免的食品污染物，對植

2023-08-21 17:18:04

845

機器學習和深度學習的區(qū)別

機器學習和深度學習的區(qū)別隨著人工智能技術(shù)的不斷發(fā)展，機器學習和深度學習已經(jīng)成為大家熟知的兩個術(shù)語。雖然它們都屬于人工智能技術(shù)的研究領(lǐng)域，但它們之間有很大的差異。本文將詳細介紹機器學習和深度學習

2023-08-17 16:11:40

2718

深度學習服務器怎么做深度學習服務器diy 深度學習服務器主板用什么

深度學習服務器怎么做深度學習服務器diy 深度學習服務器主板用什么? 隨著人工智能的飛速發(fā)展，越來越多的人開始投身于深度學習領(lǐng)域。但是，隨著深度學習的算法越來越復雜，需要更大的計算能力才能運行

2023-08-17 16:11:29

489

深度學習框架和深度學習算法教程

深度學習框架和深度學習算法教程深度學習是機器學習領(lǐng)域中的一個重要分支，多年來深度學習一直在各個領(lǐng)域的應用中發(fā)揮著極其重要的作用，成為了人工智能技術(shù)的重要組成部分。許多深度學習算法和框架提供

2023-08-17 16:11:26

637

深度學習框架對照表

的深度學習框架，并對它們進行對比。 1. TensorFlow TensorFlow是由Google Brain團隊開發(fā)的一款深度學習框架，目前是深度學習領(lǐng)域中最常用的框架之一。 TensorFlow 主要的優(yōu)勢是其可擴展性和豐富的社區(qū)支持，擁有非常強大的計算圖優(yōu)化、自動微分

2023-08-17 16:11:13

456

深度學習框架的作用是什么

深度學習框架的作用是什么深度學習是一種計算機技術(shù)，它利用人工神經(jīng)網(wǎng)絡來模擬人類的學習過程。由于其高度的精確性和精度，深度學習已成為現(xiàn)代計算機科學領(lǐng)域的重要工具。然而，要在深度學習中實現(xiàn)高度復雜

2023-08-17 16:10:57

1070

深度學習框架是什么？深度學習框架有哪些？

深度學習框架是什么？深度學習框架有哪些？? 深度學習框架是一種軟件工具，它可以幫助開發(fā)者輕松快速地構(gòu)建和訓練深度神經(jīng)網(wǎng)絡模型。與手動編寫代碼相比，深度學習框架可以大大減少開發(fā)和調(diào)試的時間和精力，并提

2023-08-17 16:03:09

1585

什么是深度學習算法？深度學習算法的應用

什么是深度學習算法？深度學習算法的應用深度學習算法被認為是人工智能的核心，它是一種模仿人類大腦神經(jīng)元的計算模型。深度學習是機器學習的一種變體，主要通過變換各種架構(gòu)來對大量數(shù)據(jù)進行學習以及分類處理

2023-08-17 16:03:04

1299

深度學習是什么領(lǐng)域

深度學習是什么領(lǐng)域? 深度學習是機器學習的一種子集，由多層神經(jīng)網(wǎng)絡組成。它是一種自動學習技術(shù)，可以從數(shù)據(jù)中學習高層次的抽象模型，以進行推斷和預測。深度學習廣泛應用于計算機視覺、語音識別、自然語言處理

2023-08-17 16:02:59

984

深度學習算法簡介深度學習算法是什么深度學習算法有哪些

深度學習算法簡介深度學習算法是什么?深度學習算法有哪些?? 作為一種現(xiàn)代化、前沿化的技術(shù)，深度學習已經(jīng)在很多領(lǐng)域得到了廣泛的應用，其能夠不斷地從數(shù)據(jù)中提取最基本的特征，從而對大量的信息進行機器學習

2023-08-17 16:02:56

5989

深度學習的七種策略

深度學習的七種策略深度學習已經(jīng)成為了人工智能領(lǐng)域的熱門話題，它能夠幫助人們更好地理解和處理自然語言、圖形圖像、語音等各種數(shù)據(jù)。然而，要想獲得最好的效果，只是使用深度學習技術(shù)不夠。要獲得最好的結(jié)果

2023-08-17 16:02:53

1166

深度學習基本概念

深度學習基本概念? 深度學習是人工智能（AI）領(lǐng)域的一個重要分支，它模仿人類神經(jīng)系統(tǒng)的工作方式，使用大量數(shù)據(jù)訓練神經(jīng)網(wǎng)絡，從而實現(xiàn)自動化的模式識別和決策。在科技發(fā)展的今天，深度學習已經(jīng)成為了計算機

2023-08-17 16:02:49

979

GA-ASI自主作戰(zhàn)無人機生態(tài)系統(tǒng)介紹

基于深度強化學習的簽名管理技能由GA-ASI開發(fā)。技能開發(fā)利用了GA-ASI新穎的強化學習（Reinforcement Learning，RL）架構(gòu)，該架構(gòu)使用了敏捷軟件方法和行業(yè)標準工具（例如Docker和Kubernetes）。

2023-08-17 11:34:29

440

AI、機器學習和深度學習的區(qū)別及應用

深度學習和神經(jīng)網(wǎng)絡的區(qū)別在于隱藏層的深度。一般來說，神經(jīng)網(wǎng)絡的隱藏層要比實現(xiàn)深度學習的系統(tǒng)淺得多，而深度學習的在隱藏層可以有很多層。

2023-07-28 10:44:27

296

基于模型的自動駕駛汽車端到端深度強化學習概述

真實駕駛場景中，通過觀察和互動，使智能駕駛汽車能夠積累知識并應對不可預測的情況。我們將智駕汽車的這種對世界運作方式稱為“常規(guī)認知”，它使智能汽車能夠找到自己的方向。

2023-07-25 16:18:22

218

語言模型做先驗，統(tǒng)一強化學習智能體，DeepMind選擇走這條通用AI之路

在智能體的開發(fā)中，強化學習與大語言模型、視覺語言模型等基礎(chǔ)模型的進一步融合究竟能擦出怎樣的火花？谷歌 DeepMind 給了我們新的答案。一直以來，DeepMind 引領(lǐng)了強化學習（RL）智能

2023-07-24 16:55:02

295

什么是深度強化學習？深度強化學習在自動駕駛領(lǐng)域的應用

最近，人工智能領(lǐng)域最火的莫過于大模型了。

2023-07-24 10:37:41

1005

基于深度學習的點云分割的方法介紹

　　摘要：點云分割是點云數(shù)據(jù)理解中的一個關(guān)鍵技術(shù)，但傳統(tǒng)算法無法進行實時語義分割。近年來深度學習被應用在點云分割上并取得了重要進展。綜述了近四年來基于深度學習的點云分割的最新工作，按基本思想分為

2023-07-20 15:23:59

0

48.5 5 強化學習（AlphaGo下） #硬聲創(chuàng)作季

機器學習

充八萬發(fā)布于 2023-07-20 03:48:44

基于強化學習的目標檢測算法案例

強化學習的目標檢測算法。首先，深度強化學習agent根據(jù)初始候選區(qū)域所提取的信息決定相應搜索行動，根據(jù)行動選擇下一個逼近真實目標的候選區(qū)域；然后，重復上述過程，直至agent能確定當前區(qū)域為目標區(qū)域時終止搜索過程；最后，

2023-07-19 14:35:02

0

強化學習 - 無模型設(shè)定(3)#人工智能

人工智能

未來加油dz發(fā)布于 2023-07-18 23:00:40

強化學習 - 無模型設(shè)定(2)#人工智能

人工智能

未來加油dz發(fā)布于 2023-07-18 23:00:17

強化學習 - 無模型設(shè)定(1)#人工智能

人工智能

未來加油dz發(fā)布于 2023-07-18 22:59:54

基于模型的強化學習(2)#人工智能

人工智能

未來加油dz發(fā)布于 2023-07-18 22:56:51

基于模型的強化學習(1)#人工智能

人工智能

未來加油dz發(fā)布于 2023-07-18 22:56:20

陶氏化學工廠爆炸牽動半導體關(guān)鍵耗材生產(chǎn)

陶氏化學公司是粘合劑，輔助劑等在內(nèi)的多種材料提供的高純度化學產(chǎn)品生產(chǎn)線的半導體核心化學材料的主要供應商，也供應全球重要的CMP材料包括拋光墊、拋光液等。

2023-07-18 09:59:07

613

深度學習工業(yè)應用:關(guān)于缺陷檢測機器自動化方面

隨著機器學習，深度學習的發(fā)展，很多人眼很難去直接量化的特征，深度學習可以搞定，這就是深度學習帶給我們的優(yōu)點和前所未有的吸引力。

2023-07-17 12:55:43

280

48. 5 5 強化學習（AlphaGo下） #硬聲創(chuàng)作季

機器學習

充八萬發(fā)布于 2023-07-07 01:59:56

47. 5 4 強化學習（AlphaGo上） #硬聲創(chuàng)作季

機器學習

充八萬發(fā)布于 2023-07-07 01:58:46

46. 5 3 強化學習policygradient和actor critic #硬聲創(chuàng)作季

機器學習

充八萬發(fā)布于 2023-07-07 01:57:36

45. 5 2 強化學習（深度強化學習） #硬聲創(chuàng)作季

機器學習

充八萬發(fā)布于 2023-07-07 01:56:26

深度學習低光圖像增強綜述（譯）

較差的環(huán)境中捕獲的圖像的感知或可解釋性。該領(lǐng)域的最新進展以基于深度學習的解決方案為主，其中采用了許多學習策略、網(wǎng)絡結(jié)構(gòu)、損失函數(shù)、訓練數(shù)據(jù)等。在本文中，

2023-07-03 14:43:46

1972

什么是深度強化學習?深度強化學習算法應用分析

什么是深度強化學習? 眾所周知，人類擅長解決各種挑戰(zhàn)性的問題，從低級的運動控制(如：步行、跑步、打網(wǎng)球)到高級的認知任務。

2023-07-01 10:29:50

1000

電化學研究領(lǐng)域巨人鋰離子電池之父、諾貝爾化學獎得主約翰·B·古迪納夫逝世

電化學研究領(lǐng)域巨人鋰離子電池之父、諾貝爾化學獎得主約翰·B·古迪納夫逝世 2023年6月26日，電化學研究領(lǐng)域巨人鋰離子電池之父、諾貝爾化學獎得主約翰·古迪納夫逝世；哀默！在1997年，75

2023-06-27 12:00:58

735

人工智能強化學習開源分享

電子發(fā)燒友網(wǎng)站提供《人工智能強化學習開源分享.zip》資料免費下載

2023-06-20 09:27:28

1

利用強化學習來探索更優(yōu)排序算法的AI系統(tǒng)

前言 DeepMind 最近在 Nature 發(fā)表了一篇論文 AlphaDev[2, 3]，一個利用強化學習來探索更優(yōu)排序算法的AI系統(tǒng)。 AlphaDev 系統(tǒng)直接從 CPU 匯編指令的層面入手

2023-06-19 10:49:27

357

氧氣傳感器在化學工業(yè)中的應用

化學工業(yè)（chemical industry）又稱化學加工工業(yè)，泛指生產(chǎn)過程中化學方法占主要地位的過程工業(yè)。化學工業(yè)是從19世紀初開始形成，并發(fā)展較快的一個工業(yè)部門。化學工業(yè)在許多國家的國民經(jīng)濟

2023-06-16 10:28:14

255

深度Q學習網(wǎng)絡：彌合從虛擬游戲到實際應用的差距

人工智能（AI）和機器學習（ML）對從醫(yī)療保健和金融到能源和運輸?shù)膹V泛行業(yè)產(chǎn)生了深遠的影響。在各種人工智能技術(shù)中，強化學習（RL）——一種機器學習，代理通過與環(huán)境交互來學習做出決策——已成為

2023-06-15 09:45:34

200

基于深度強化學習的視覺反饋機械臂抓取系統(tǒng)

機械臂抓取擺放及堆疊物體是智能工廠流水線上常見的工序，可以有效的提升生產(chǎn)效率，本文針對機械臂的抓取擺放、抓取堆疊等常見任務，結(jié)合深度強化學習及視覺反饋，采用AprilTag視覺標簽、后視經(jīng)驗回放機制

2023-06-12 11:25:22

1214

ICLR 2023 Spotlight｜節(jié)省95%訓練開銷，清華黃隆波團隊提出強化學習專用稀疏訓練框架RLx2

，可以節(jié)省至多 95% 的訓練開銷。深度強化學習模型的訓練通常需要很高的計算成本，因此對深度強化學習模型進行稀疏化處理具有加快訓練速度和拓展模型部署的巨大潛力。然而現(xiàn)有的生成小型模型的方法主要基于知識蒸餾，即通過迭

2023-06-11 21:40:02

356

徹底改變算法交易：強化學習的力量

強化學習（RL）是人工智能的一個子領(lǐng)域，專注于決策過程。與其他形式的機器學習相比，強化學習模型通過與環(huán)境交互并以獎勵或懲罰的形式接收反饋來學習。

2023-06-09 09:23:23

355

Python怎么實現(xiàn)自動駕駛

一、安裝環(huán)境 gym是用于開發(fā)和比較強化學習算法的工具包，在python中安裝gym庫和其中子場景都較為簡便。安裝gym： pip install gym 安裝自動駕駛模塊，這里使用Edouard Leurent發(fā)布在github上的包highway-en

2023-06-07 14:35:06

0

化學粉料自動包裝機自動包裝秤定量包裝 #自動包裝機

自動化

安丘博陽機械發(fā)布于 2023-06-06 16:32:35

Python實現(xiàn)自動駕駛

今天來一個好玩一點的，汽車已經(jīng)能夠自動駕駛了，Python怎么能沒有呢？這不，必須安排上。一、安裝環(huán)境 gym是用于開發(fā)和比較強化學習算法的工具包，在python中安裝gym庫和其中子場景都較為

2023-06-06 10:43:21

1

電化學傳感器原理及應用全面了解電化學與化學傳感器

? 電化學傳感器是通過電化學反應過程的電信號（一般包括電位、電流、阻抗等）對待測對象進行檢測的一種化學分析技術(shù)。電化學傳感器因其對特殊靶標例如血糖、尿酸、乳酸等代謝物、血氣、農(nóng)藥殘留、重金屬離子

2023-05-31 08:39:00

2350

機器學習筆記之優(yōu)化-拉格朗日乘子法和對偶分解

優(yōu)化是機器學習中的關(guān)鍵步驟。在這個機器學習系列中，我們將簡要介紹優(yōu)化問題，然后探討兩種特定的優(yōu)化方法，即拉格朗日乘子和對偶分解。這兩種方法在機器學習、強化學習和圖模型中非常流行。

2023-05-30 16:47:17

1333

固定電勢在電化學反應中的應用

在電化學界面反應過程中，由于電化學反應界面通常與恒定電極電勢的外電極相連，為確保電子的化學勢與外電極的電勢達到平衡

2023-05-26 09:44:43

1080

基于多智能體深度強化學習的體系任務分配方法

為了應對在未來復雜的戰(zhàn)場環(huán)境下，由于通信受限等原因?qū)е碌募惺經(jīng)Q策模式難以實施的情況，提出了一個基于多智能體深度強化學習方法的分布式作戰(zhàn)體系任務分配算法，該算法為各作戰(zhàn)單元均設(shè)計一個獨立的策略網(wǎng)絡

2023-05-18 16:46:43

2444

深度學習邊緣計算綜述論文閱讀筆記

這是一篇關(guān)于深度學習和邊緣計算基礎(chǔ)知識的綜述，包含了深度學習DL的幾種網(wǎng)絡模型的介紹，邊緣計算的基礎(chǔ)知識的介紹，以及二者的結(jié)合，如何利用DL來發(fā)展邊緣計算，如何用邊緣計算發(fā)展DL,怎么在邊緣計算

2023-05-18 14:36:25

0

機器視覺和深度學習在自動檢查領(lǐng)域的應用

人工智能最終將改變游戲規(guī)則，幾乎在每個領(lǐng)域中都有無數(shù)的應用程序。現(xiàn)在，它正在進入生產(chǎn)和制造領(lǐng)域，從而可以利用深度學習的力量，并在此過程中提供更快，更便宜，更優(yōu)越的自動化。

2023-05-06 16:22:56

341

智造之眼丨深度學習應用

智造之眼?科學設(shè)計深度學習各應用流程，在盡量簡化前期準備工作的基礎(chǔ)上為客戶提供穩(wěn)定且準確的深度學習解決方案。

2023-05-04 16:55:52

424

機器學習算法：監(jiān)督學習和強化學習

垃圾郵件識別需使計算機“學會”識別某個郵件是否為垃圾郵件。為實現(xiàn)計算機識別垃圾郵件，開發(fā)人員需搜集較多的垃圾郵件和非垃圾郵件，并“告訴”計算機各個郵件分屬于垃圾郵件或非垃圾郵件。

2023-04-24 12:49:02

606

模擬前端設(shè)計增強電化學傳感性能

電子發(fā)燒友網(wǎng)報道（文/李寧遠）目前應用的傳感器里以半導體技術(shù)、電化學技術(shù)和光學技術(shù)為主。電化學技術(shù)是利用待測物的電化學性質(zhì)，將待測物化學量轉(zhuǎn)變成電學量進行傳感檢測的一項技術(shù)。 ? 電化學傳感很早之前

2023-04-24 01:17:00

1152

化學金沉積過程的研究綜述

化學鍍鎳和銅工藝的應用對導體和絕緣體的金屬化技術(shù)產(chǎn)生了深遠的影響。印刷電路工業(yè)實際上是建立在無電鍍銅以不均勻的金屬厚度覆蓋絕緣體和導體的能力上的；同時，化學鍍鎳不僅廣泛用于涂覆復雜幾何形狀的物品，而且用于賦予由各種其他金屬和合金制成的部件硬度和耐磨性的工程特性。

2023-04-21 10:08:59

445

酸性化學品供應控制系統(tǒng)

[技術(shù)領(lǐng)域] 本實用新型涉及半導體制造技術(shù)領(lǐng)域，具體地說是一種酸性化學品供應控制系統(tǒng)。由于半導體行業(yè)中芯片生產(chǎn)線的工作對象是硅晶片，而能在硅晶片上蝕刻圖形以及清洗硅晶片上的雜質(zhì)、微粒子的化學

2023-04-20 13:57:00

74

悉尼大學最新綜述：深度學習圖像摳圖

自深度學習出現(xiàn)之后，研究者設(shè)計出了多種多樣的基于卷積神經(jīng)網(wǎng)絡的解決方案。和傳統(tǒng)方法一樣，早期的深度學習方法依然需要依賴一定量的人工輔助信息，例如三分圖（trimap），涂抹（scribble），背景圖像等等

2023-04-20 09:31:43

399

自動化編程要學多久自動化編程的就業(yè)方向

學習自動化編程的時間取決于多方面的因素，例如個人的學習能力、基礎(chǔ)知識掌握程度、學習的深度和廣度等。一般而言，如果你要學習自動化編程，建議進行以下幾個步驟：　　1. 學習相關(guān)基礎(chǔ)知識

2023-04-19 15:52:42

3033

自動化技術(shù)學什么自動化技術(shù)員工作內(nèi)容

自動化專業(yè)是學電路知識、數(shù)字電子技術(shù)、自動控制原理、計算機技術(shù)和軟件技術(shù)等。　　自動化專業(yè)需要學習的基本知識：自動化控制理論、電路原理、電力電子技術(shù)、數(shù)字電子技術(shù)、信號與系統(tǒng)分析、傳感器技術(shù)、網(wǎng)絡與通信技術(shù)、高級語言程序設(shè)計以及化學工程、力學和管理學等方面的知識。

2023-04-19 15:37:29

1930

利用有機電化學晶體管放大微弱的生物化學信號

人體內(nèi)的生物化學信號通常非常微弱，很難直接進行檢測和分析。據(jù)麥姆斯咨詢報道，美國西北大學（Northwestern University）的研究人員基于有機電化學晶體管開發(fā)了一種新方法

2023-04-15 09:38:24

1267

使用Isaac Gym 來強化學習mycobot 抓取任務

使用Isaac Gym來強化學習mycobot抓取任務

2023-04-11 14:57:12

5334

基于多智能體強化學習的自主移動機器人實時訂單調(diào)度

訂單調(diào)度，提出了一種使用多agent強化學習的方法，其中AMRagent根據(jù)各自的觀察學習對訂單進行投標。在機器人仿真環(huán)境中研究了該方法。結(jié)果表明，與常用的調(diào)度規(guī)則相比，該算法的訂單分配效率更高。

2023-04-11 10:59:24

0

華為MatePad 11英寸 2023款首銷：突破性柔光屏解決大學生無紙化學習痛點

綜合來看，華為MatePad 11英寸 2023款柔光版基于一系列的屏幕技術(shù)創(chuàng)新和場景實驗調(diào)試，成功打造出防眩光無反射、紙感讀寫的柔光屏，讓無紙化學習有如神助……

2023-03-31 17:24:04

688

哪些因素能影響應用的電池化學選擇呢？

　　許多嵌入式電路和設(shè)備依靠電池供電，其中許多設(shè)備使用可能需要更換的原電池。其他嵌入式設(shè)備是可充電的，并使用二次電池來保持供電?！　榻o定電路或應用選擇電池類型、化學成分或封裝并不困難。優(yōu)缺點以及

2023-03-29 15:47:44

看好“化學發(fā)光+微流控技術(shù)”，IDG加持科瑞達生物

旗下CORESTAR-100系列產(chǎn)品，運用微流控技術(shù)實現(xiàn)化學發(fā)光免疫分析流程芯片化，達成單芯片解決“樣本處理+檢驗分析”全流程閉環(huán)，方寸之間，滿足臨床檢驗“樣本進，結(jié)果出”的自動化檢驗需求，且具有結(jié)果精準、檢驗快速、操作簡單、成本同類最低等優(yōu)勢。

2023-03-27 13:52:53

765

基于機器學習的水體化學需氧量高光譜反演模型對比研究

引言化學需氧量(COD)是以化學方法測量水樣中需要被氧化的還原性物質(zhì)的量。水樣在一定條件下的COD以氧化1升水樣中還原性物質(zhì)縮小化的氧化劑的量為指標，折算成每升水樣全部被氧化后，需要的氧的毫克

2023-03-23 09:58:43

733

已全部加載完成

<tr id="c2yaz"><p id="c2yaz"><delect id="c2yaz"></delect></p></tr>

<dl id="c2yaz"><center id="c2yaz"><optgroup id="c2yaz"></optgroup></center></dl>