作者:程進1,2,胡寒棟1,2,3,江業(yè)帆1,2,張一博1,2,3,丁季時雨1,2,3
(1.航天科工集團智能科技研究院有限公司,北京 100144;2.航天防務智能系統(tǒng)與技術科研重點實驗室,北京 100144;3.中國航天科工集團第二研究院,北京 100854)
摘要:?隨著人工智能技術的發(fā)展,空域無人作戰(zhàn)正由“單平臺遙控”向“多平臺協(xié)同”轉變。多無人機協(xié)同作戰(zhàn)任務具有非完全信息、通信受限、高實時、強動態(tài)等特點,給協(xié)同決策生成帶來巨大挑戰(zhàn)。針對通信受限環(huán)境中的多無人機協(xié)同決策問題,提出一種基于動態(tài)層級網(wǎng)絡通信架構的通信強化學習協(xié)同策略,該策略能夠顯著減少無人機集群間的通信次數(shù),同時準確傳遞其決策需要的信息,從而得到較優(yōu)協(xié)同策略。針對多無人機協(xié)同圍捕的典型任務場景,基于OpenAI平臺對所提出的算法進行了仿真驗證。結果表明,與傳統(tǒng)強化學習算法相比,提出的通信強化學習策略可以顯著減少無人機間的通信次數(shù),同時在一定程度上避免潛在的信息欺騙問題。完成任務需要的平均通信次數(shù)相比于傳統(tǒng)兩兩通信結構減少約 77%,為實現(xiàn)通信受限環(huán)境中的多無人機協(xié)同任務提供技術支撐。
1 引 言
隨著人工智能技術的發(fā)展,空域無人作戰(zhàn)正由“單平臺遙控”向“多平臺協(xié)同”轉變[1]。由于單個無人機的載荷能力與探測能力有限,因而難以完成復雜的作戰(zhàn)任務,無法滿足日益增長的智能化作戰(zhàn)需求。多無人機集群協(xié)同能夠突破單個無人機的能力限制,通過信息共享與統(tǒng)一決策有效提升無人機的總體作戰(zhàn)能力[2],從而實現(xiàn)多無人機集群自主協(xié)同搜索、協(xié)同圍捕、協(xié)同打擊等作戰(zhàn)任務。在多無人機協(xié)同作戰(zhàn)過程中,每架無人機作為一個智能體,共同構成多智能體系統(tǒng)。多智能體系統(tǒng)的目標是讓若干個單智能體通過相互協(xié)作實現(xiàn)復雜智能,使得在降低系統(tǒng)建模復雜性的同時,提高系統(tǒng)的魯棒性、可靠性、靈活性。
當前,多無人機在復雜環(huán)境下的不完全信息博弈決策問題已成為多無人機協(xié)同作戰(zhàn)場景下亟待解決的前沿熱點問題之一[3]。多無人機協(xié)同決策具有多智能體并存、多復雜任務、對抗實時性、動作持續(xù)性、信息不完全、搜索空間龐大等特點。近年來,以深度學習和強化學習為代表的人工智能技術取得了較大的突破,多智能體協(xié)同決策問題的解決方法逐漸從傳統(tǒng)的基于預編程規(guī)則的方法轉向以智能體自主強化學習為主的方法[4-5]。通過強化學習方法研究多無人機間的協(xié)同決策,能夠為解決未來軍事協(xié)同對抗問題提供新的有效途徑。
多智能體強化學習場景根據(jù)任務目標可分為完全合作型、完全競爭型、混合型[6]。其中,在完全合作型中,智能體一般無法觀測到環(huán)境中的所有狀態(tài)信息,且所有智能體需要合作實現(xiàn)共同目標;在完全競爭型中,智能體一般分為兩隊,且兩隊智能體具有零和獎勵函數(shù),智能體一般考慮在最壞的情況下將對手盡力最小化,從而最大化自己的利益,經典算法有Minimax-Q等[7];在混合型中,智能體擁有各自獨立的獎勵函數(shù)且不受限制,常見方法主要有Nash Q-learning等[8]。近年來,多智能體強化學習主要聚焦于在部分可觀環(huán)境下的完全合作型場景。在該設置下,多智能體強化學習算法的主要研究方向包括緊急行為分析[9]、值分解[10]、聯(lián)合探索[11]等。
真實作戰(zhàn)場景電磁環(huán)境復雜、通信容量有限,難以滿足智能體海量節(jié)點實時全聯(lián)通的需求。對于無人機集群而言,通信受限問題已成為限制其協(xié)同決策發(fā)展的關鍵瓶頸之一。傳統(tǒng)強化學習算法無法有效處理通信受限環(huán)境中的協(xié)同決策需求。為此,一些學者提出了基于通信的多智能體強化學習算法。基于通信的多智能體強化學習算法主要解決多智能體系統(tǒng)中的部分可觀測問題,試圖使用顯式的通信信道實現(xiàn)信息的共享。Foerster等[12]最先在深度多智能體強化學習中引入通信學習,提出了RIAL和DIAL兩種使用深度網(wǎng)絡學習離散通信信息的方法。Sukhbaatar等[13]提出了CommNet,在智能體之間構建了一個具備傳輸連續(xù)信息能力的通信通道,確保環(huán)境中任何一個智能體都可以實時傳遞信息。IC3NET[14]使用可學習的閥函數(shù)控制智能體是否參與本次通信,減少了智能體間不必要的通信頻率。SchedNet[15]利用智能體根據(jù)自身觀測生成的動態(tài)重要性權重進行排序,只選取最大的K個智能體進行通信,利用先驗信息減少了通信次數(shù)。TarMAC[16]利用注意力機制計算智能體對其他智能體消息的權重,以此實現(xiàn)選擇性的通信。GA-Comm使用游戲提取法,即基于軟性注意力及硬性注意力提取智能體間的關系,結合雙向LSTM網(wǎng)絡實現(xiàn)更準確、高效的通信[17]。NDQ[17]通過限制信息熵、接收到的信息與動作信息,對信息質量進行優(yōu)化,得到更加簡短、高效的通信信息。IS[18]使用預測網(wǎng)絡估計環(huán)境轉移概率,并將智能體未來運動軌跡編碼至通信信息中,實現(xiàn)智能體間的意圖分享。然而,上述方法在多無人機協(xié)同決策中存在信息欺騙問題。
鑒于此,本文針對通信受限環(huán)境中的多無人機協(xié)同決策問題,提出了一種基于動態(tài)層級網(wǎng)絡通信架構的通信強化學習協(xié)同策略。該策略能夠顯著減少無人機集群間的通信次數(shù),同時準確傳遞其決策需要的信息,在一定程度上避免信息欺騙問題,從而得到較優(yōu)協(xié)同策略。針對多無人機協(xié)同圍捕的典型場景,基于 OpenAI平臺對所提出的算法進行了仿真驗證。
2 多無人機通信強化學習協(xié)同策略架構
本文基于動態(tài)層級網(wǎng)絡設計多無人機強化學習協(xié)同策略,通過將多無人機系統(tǒng)建模為層級通信網(wǎng)絡,在消息中融合觀測及意圖信息,實現(xiàn)選擇性的觀測共享和單邊的意圖分享,提升無人機對全局狀態(tài)的信念并且實現(xiàn)更好的協(xié)作。在此基礎上,引入線性值分解網(wǎng)絡,將團隊獎勵分解為條件狀態(tài)-動作函數(shù)值,實現(xiàn)更為準確的效用分配。同時,結合內在獎勵的方法,設計基于策略不確定度的通信獎勵,實現(xiàn)對有向層級網(wǎng)絡的訓練。
多無人機通信強化學習協(xié)同策略的整體架構如圖1所示。將多無人機系統(tǒng)建模為動態(tài)可學習的有向層級網(wǎng)絡,該網(wǎng)絡被定義為包含了多組領導者-追隨者樹的森林。每棵樹可以表示為節(jié)點和有向邊的集合,其中N代表節(jié)點集合,E代表有向邊集合。每個節(jié)點代表了一個無人機,有向邊則描述了無人機間的領導者-追隨者關系。通過限制意圖僅能沿著有向邊單向流動,有向層級網(wǎng)絡保證了單邊的意圖分享,從而在一定程度上減少了信息傳遞過程中潛在的信息欺騙,并緩解了通信過程中的環(huán)境非穩(wěn)態(tài)問題。
圖1 基于層級通信網(wǎng)絡的多無人機協(xié)同策略示意圖
Fig.1 Schematic diagram of multi-UAV cooperation strategy based on hierarchical communication network
在每個決策時間步,每個無人機收到各自的局部觀測信息后,經過觀測信息編碼器和依賴信息編碼器,將其轉化為觀測特征和依賴特征。每個無人機根據(jù)其觀測特征進行預決策,將預決策信息和依賴特征進行融合,利用融合特征計算無人機間的相關性,獲得帶權重的全連接圖。之后,基于最小生成樹算法的層級關系圖生成器將帶權重的全連接圖轉化為能夠表示無人機間領導者-追隨者的有向層級關系圖。根據(jù)生成的有向層級關系圖,無人機根據(jù)其領導的決策信息依次做出決策,并將其意圖信息分享給追隨無人機,直至所有的無人機均做出決策。多無人機執(zhí)行聯(lián)合動作并與環(huán)境交互,獲得團隊獎勵,并將狀態(tài)、動作、下時刻狀態(tài)、獎勵、預決策等信息存入經驗回放池。
訓練時,將多無人機系統(tǒng)視為一個整體,使用單無人機的訓練方法優(yōu)化聯(lián)合動作價值函數(shù)及層級通信網(wǎng)絡。聯(lián)合動作價值函數(shù)是由各個無人機的觀測動作值函數(shù)加和計算得到的,因此不僅可以適應動態(tài)變化的無人機數(shù)目及異構的多智能體類型,保證算法的可擴展性,同時由于所有無人機使用團隊獎勵,可以更好地實現(xiàn)多無人機的協(xié)作任務。具體的,根據(jù)每個無人機的狀態(tài)-動作函數(shù)值及其執(zhí)行動作,利用線性值分解網(wǎng)絡計算團隊狀態(tài)-動作值,使用 Q學習模塊完成智能體策略的更新。另一方面,根據(jù)無人機策略在通信前后的不確定性變化及環(huán)境獎勵,設計內在通信獎勵,基于深度確定性梯度下降方法,實現(xiàn)對動態(tài)有向層級關系圖的訓練。算法1展示了基于層級通信網(wǎng)絡的多無人機強化學習算法的完整流程。該算法能夠解決由于可能的信息欺騙所導致的錯誤合作,同時單邊通信在一定程度上減少了通信次數(shù),提升了基于通信的多無人機強化學習算法的性能。
3 基于動態(tài)層級通信的多無人機協(xié)同策略
3.1 層級通信網(wǎng)絡與單邊意圖分享
根據(jù)無人機智能體間的相互依賴關系,可以使用基于最小生成樹的有向圖生成算法,實現(xiàn)全連接圖向層級通信網(wǎng)絡的轉變。首先,基于依賴矩陣 d
w計算每個節(jié)點的流入流出值,即無人機的相對依賴程度
式中,u,v是除去 i以外的其他節(jié)點。由于我們采用了軟性注意力機制計算依賴矩陣,因此實際上
根據(jù)無人機相對依賴程度,我們可以選出更適合作為領導者的無人機:相對依賴程度越大,其越能影響其他無人機的決策,而越不受到其他無人機的影響。
基于最小生成樹算法,本文提出了層級通信網(wǎng)絡生成算法。首先,根據(jù)無人機的相對依賴程度ρi選出最大值對應的無人機作為根節(jié)點,將其建立在有向圖中。之后,找到在 w d中擁有最大的邊權重wij的無人機i,其中 i ∈ N r = ( N /Nnew),j∈N n ew。判斷wij是否為從無人機i流出的最大邊。如果是,則將其建立在有向圖中,作為無人機 j的子節(jié)點;如果不是,則拒絕該節(jié)點的加入,再從未使用的無人機集合Nr中,根據(jù)無人機的相對依賴程度ρi選出最大的值對應的無人機作為根節(jié)點。重復上述操作,直至所有的無人機均被建立在有向圖中,并生成最終的層級通信網(wǎng)絡。同時,如果無人機的組數(shù),即層級有向圖的樹木棵樹是給定的,我們可以使用Top(k)方法直接選取n個根節(jié)點,且不使用拒絕機制,從而簡化樹的建立過程。級通信網(wǎng)絡生成具體步驟如算法 2所示。在實際執(zhí)行過程中,我們可以根據(jù)實際通信所需時間計算出層級網(wǎng)絡中樹的最大深度d,將超過此深度的節(jié)點進行剪枝,將其掛在前d層的父節(jié)點上,以此實現(xiàn)帶有深度約束的層級通信網(wǎng)絡,滿足通信時間需求。
在通信過程中,無人機收到由其他無人機的觀測信息h-i和意圖信息u-i組成的通信信息mi。之后,無人機通過一個自注意力模型,將來自其他無人機的觀測信息進行選擇性接收,獲得融合觀測信息
式中, w isj表示自注意力模型中無人機i對無人機j發(fā)送的信息占融合觀測信息的權重。同時,無人機根據(jù)其在層級關系圖中的層數(shù),獲取其領導者的決策信息
式中,L(i)表示無人機i的領導人,即其在層級通信網(wǎng)絡中的所有祖先節(jié)點。最終,無人機根據(jù)自身觀測信息及聚合信息 a ggri =[c i , xi ]做出最終決策
最終,無人機i將其意圖信息發(fā)送給其追隨者,并在當前決策步中保持不變。循環(huán)此過程,直至所有的無人機都完成了通信任務。
3.2 條件狀態(tài)-行為值分解及策略網(wǎng)絡訓練
在線性值分解網(wǎng)絡 VDN和單調值分解網(wǎng)絡QMIX等SOTA效用分配算法中,由于相對過度泛化問題,其在部分任務的性能極差。在博弈論中,相對過度泛化問題是指當聯(lián)合行動空間中的次優(yōu)納什均衡優(yōu)于最優(yōu)納什均衡。在該狀態(tài)下,次優(yōu)均衡中每個智能體的行動與合作智能體的任意行動組成的聯(lián)合動作均為最優(yōu)動作,從而導致無人機學習及協(xié)作的失敗。
解決該問題的一個思路是引入無人機的策略信息,即使用無人機的動作信息減少環(huán)境的非穩(wěn)態(tài)性,利用一種集中式的訓練方式來尋找正確的全局最優(yōu)點。在我們的方法中,由于使用了層級有向的意圖分享,追隨者能夠獲得其領導者的策略信息,進而生成條件狀態(tài)-行為函數(shù)值。于是,基于條件狀態(tài)-行為函數(shù)值的線性分解網(wǎng)絡
可以減少由于其他無人機變化策略帶來的環(huán)境非穩(wěn)態(tài)問題。
層級通信網(wǎng)絡的結構在策略生成過程中也起到了至關重要的作用。層級通信網(wǎng)絡控制了無人機的領導者,即影響了其接收到的其他無人機策略信息。同時,層級通信網(wǎng)絡的生成過程中失去了訓練所需要的梯度,但具有梯度的輸入依賴矩陣 w d 和層級通信網(wǎng)絡 w f之間是多對一的關系。因此,我們將層級通信網(wǎng)絡 w f視為一個偏置項,同時利用集中式訓練的優(yōu)勢,結合環(huán)境的真實狀態(tài)信息,以此提高訓練的穩(wěn)定性。于是,策略的更新式可以寫作
式中,?表示聯(lián)合狀態(tài)-動作目標值,V表示層級關系網(wǎng)絡的值函數(shù),B表示批采樣得到的軌跡總數(shù),b表示批采樣中的軌跡標識,T表示當前軌跡的時間步總數(shù),t表示強化學習時間步,γ表示獎勵折扣因子,表示t時刻環(huán)境狀態(tài), w bt表示智能體間的有向圖關系,θa表示智能體網(wǎng)絡參數(shù),θv表示層級關系網(wǎng)絡的值函數(shù)網(wǎng)絡參數(shù),θa′表示智能體網(wǎng)絡目標參數(shù),θv′表示層級關系網(wǎng)絡的值函數(shù)目標網(wǎng)絡參數(shù)。
3.3 內在獎勵及層級通信網(wǎng)絡訓練
為生成動態(tài)變化的層級通信有向圖,我們需要使得其成為可訓練的網(wǎng)絡。然而,在層級通信網(wǎng)絡的生成過程中,我們使用的最小生成樹方法無法實現(xiàn)梯度反傳。但是,如果給定了一個依賴矩陣 w d ,層級通信網(wǎng)絡 w f是確定的。因此,我們可以將 w f視為經過了動作選擇器的動作信號,而其對應的策略網(wǎng)絡輸出為 w d = a =φ(o)。該策略網(wǎng)絡將無人機觀測信息映射到依賴特征上。于是,層級通信網(wǎng)絡被建模為了一個強化學習過程,可以通過深度確定性梯度下降的方式進行更新。
在學習過程中,我們需要獲得能夠指導更新大小和幅度的獎勵信號?;趦仍讵剟罘椒?,我們?yōu)閷蛹壨ㄐ啪W(wǎng)絡的訓練設計了通信獎勵。一方面,無人機在接收到其他無人機的意圖信息后,其策略的不確定性應當減小。我們使用無人機狀態(tài)-行為函數(shù)值最大的前兩項的方差作為無人機對自身決策信心的評價標準。因此,內在獎勵可以表示為通信前后所有無人機決策信心的變化
式中,α為調節(jié)內在獎勵和外在建立的權重因子。依賴矩陣的更新式為
另一方面,層級通信網(wǎng)絡的最終目標仍然是最大化無人機決策的累計回報。于是,我們可以最終獲得通信獎勵
式中,Q表示層級關系網(wǎng)絡的狀態(tài)-動作值,y表示層級關系網(wǎng)絡的狀態(tài)-動作目標值,cθ表示Critic網(wǎng)絡的參數(shù),cθ′表示Critic目標網(wǎng)絡的參數(shù),dθ表示Actor網(wǎng)絡的參數(shù)。
4 多無人機協(xié)同場景設計及仿真驗證
4.1 多無人機協(xié)同任務場景設計
本文針對多無人機協(xié)同圍捕場景,采用捕食者-被捕食者強化學習訓練平臺對本文算法進行仿真驗證。捕食者-被捕食者仿真環(huán)境為一個部分可觀測多智能體協(xié)作任務環(huán)境,環(huán)境共初始化 8個捕食者(智能體)和8個被捕食者(獵物),分別模擬我方和敵方的無人機群。在該場景中,每個智能體的動作空間中有“上移”“下移”“左移”“右移”“靜止”和“打擊”6個動作,當選擇移動的目標位置被其他智能體或獵物占領時所選的動作會被判定為無效動作,當相鄰網(wǎng)格中沒有獵物時不可以選擇“打擊”動作。環(huán)境中獵物隨機選取一個方向移動,當4個相鄰網(wǎng)格都被其他智能體占領時保持靜止。每個智能體的觀測信息為以其所在位置為中心的5×5網(wǎng)格。兩個相鄰的智能體同時進行“打擊”動作,視為打擊成功,并獲得獎勵值10,一個智能體單獨執(zhí)行“打擊”動作則會受到懲罰p(p≤0)。實驗目標為:通過8個捕食者無人機協(xié)同決策,完成對8個被捕食者無人機的全部打擊。當所有被捕食者無人機都被成功“打擊”或達到200個時間步,則判定任務結束?;谏鲜鰣鼍?,分別對本文算法和當前主流通信強化學習算法進行仿真驗證,對比不同算法間的決策效果以及完成任務所需要的平均通信次數(shù)。
4.2 仿真結果
圖2給出了本文算法與基于通信的SOTA多無人機強化學習算法在捕食者-被捕食者平臺上的性能對比結果。在仿真測試中,分別取懲罰值p= -1、-1.25、-1.5和-2。可以看到,CommNet、TarMAC和GA-Comm隨著懲罰值p的減小而逐漸變得不穩(wěn)定,甚至在p= -2時完全無法完成任務。CommNet在 p≤-1.25后就開始無法完成任務,說明冗余的通信信息可能會損害多智能體協(xié)作的性能。由于 NDQ使用互信息減小了環(huán)境的非穩(wěn)態(tài)問題,因此具有學習到正確策略的潛力。雖然IS也進行了意圖共享,但是其中的軟性注意力機制并無法讓其獲得準確的智能體間關系,從而間接證明了任務中可能存在信息欺騙,且該問題會導致算法的失效。作為對比,我們提出的算法在不同的環(huán)境設置下均能很快學習到正確的策略并保持穩(wěn)定,證明了基于層級通信的網(wǎng)絡結構的有效性。
圖2 不同基于通信的多智能體強化學習算法的性能對比
Fig.2 Performance comparison of different communication based multi-agent reinforcement learning algorithms
進一步地,將本文提出的算法與其他預先設定好的通信拓撲結構或關系生成算法進行對比。設置任務場景的懲罰值p= -2.25,結果如圖3所示??梢钥吹?,現(xiàn)有的關系生成算法均不能快速地學會最優(yōu)策略,而預設的拓撲結構Line則能夠快速地學習到正確的策略。與之相比,本文算法在算法前期上升較慢,這是由于算法需要學習合適的層級通信網(wǎng)絡,這一過程較為復雜和耗時。但是,在算法后期的收斂狀態(tài),能夠看到本文學習算法性能優(yōu)于預設拓撲結構。同時,本文算法可以實現(xiàn)稀疏通信,比預設的Line型拓撲結構運行效率更高,能夠高效、準確地完成任務。
圖3 不同通信拓撲結構對意圖分享的影響Fig.3 Influence of different communication topologies on intention sharing
此外,在仿真環(huán)境下分別進行 20輪獨立試驗,得到完成任務過程中本文提出的層級通信結構和傳統(tǒng)兩兩通信結構下的平均通信次數(shù),如表1所示。結果表明,本文的動態(tài)層級通信結構的平均通信次數(shù)為 5.8次,傳統(tǒng)兩兩通信結構的平均通信次數(shù)為25.9次,本文提出的基于動態(tài)層級通信結構的多無人機協(xié)同策略完成任務需要的平均通信次數(shù)減少約77%。
表1 不同通信拓撲結構下的平均通信次數(shù)Table 1 Average communication times under different communication topologies
5 結束語
本文針對通信受限環(huán)境中的多無人機協(xié)同決策問題,提出一種基于動態(tài)層級網(wǎng)絡通信架構的通信強化學習協(xié)同策略。通過將多無人機系統(tǒng)建模為層級通信網(wǎng)絡,提升無人機對全局狀態(tài)的信念;在此基礎上引入線性值分解網(wǎng)絡,實現(xiàn)更為準確的效用分配。針對多無人機協(xié)同圍捕場景的仿真結果表明,與傳統(tǒng)強化學習算法相比,本文提出的通信強化學習策略可以顯著減少無人機間的通信次數(shù),同時在一定程度上避免潛在的信息欺騙問題,完成任務需要的平均通信次數(shù)相比于傳統(tǒng)兩兩通信結構減少約77%。本文所提出的基于動態(tài)層級網(wǎng)絡通信架構的多無人機通信強化學習協(xié)同算法可為通信受限環(huán)境中的多無人機協(xié)同任務提供技術支撐,未來將考慮把該算法遷移到物理環(huán)境以驗證其在真實場景中的有效性,并進一步探索其在體系化作戰(zhàn)決策方面的應用可能。另一方面,本文尚未對通信拒止環(huán)境下的多無人機協(xié)同策略進行探討,未來將考慮開展基于隱式信息共享的協(xié)同方法研究,進一步探索通信拒止環(huán)境下的多無人機協(xié)同策略與方法。
?
?
編輯:黃飛
?
評論
查看更多