人工智能在計算機兵棋推演領域的應用
0 引言
1956 年達特茅斯會議上約翰?麥肯錫首次提出了人工智能(Artificial Intelligence,AI)的概念,當初定義的基本范圍是“用計算機模擬人的邏輯思維”??梢钥闯?,這一定義并沒有包含人類的學習能力、歸納總結能力、決策能力等,可以認為是狹義人工智能范疇。近些年來,隨著模糊邏輯和遺傳算法等技術的成熟,特別是神經網絡的發(fā)展及深度學習的興起,人工智能更傾向于指依托計算機運用數(shù)學算法模仿人類智力,讓機器“學會”人類的分析、推理、思維乃至決策的能力。
兵棋是一種用于戰(zhàn)爭研究和訓練的工具,有著近 200 年的發(fā)展歷史。隨著計算機與信息技術的發(fā)展,早期的手工兵棋逐漸演化為現(xiàn)代的計算機兵棋。1980 年代后,計算機兵棋技術蓬勃發(fā)展,先后出現(xiàn)了多型軍用和民用的兵棋系統(tǒng),其中最為著名的當屬美軍的聯(lián)合戰(zhàn)區(qū)級兵棋系統(tǒng)(JTLS)和聯(lián)合沖突戰(zhàn)術兵棋系統(tǒng)(JCATS)。兵棋推演可以在作戰(zhàn)方案優(yōu)化、訓練教學支撐、作戰(zhàn)試驗評估等領域發(fā)揮出較好的作用。
2016 年,人工智能 AlphaGo[1-4]以 4∶1 的戰(zhàn)績戰(zhàn)勝世界圍棋冠軍李世乭;2017 年初,AlphaGo 化名 Master(大師)先后戰(zhàn)勝 15 名世界圍棋冠軍,實現(xiàn) 60 連勝;2017 年 5 月,AlphaGo 再次以 3∶0 的戰(zhàn)績戰(zhàn)勝當今圍棋排名第一的柯潔。人機對抗,尤其在棋類領域的博弈,開始徹底倒向有人工智能支撐的計算機,盡管兵棋非簡單等同于圍棋、象棋,但 AlphaGo 的連續(xù)成功,還是激起了我們將人工智能技術深度融合應用于兵棋推演領域的強烈意愿。
1 兵棋特點
兵棋推演的實施過程主要如下:在導演部及導調機構的導控下,由參演人員在想定的戰(zhàn)場環(huán)境下,與假定的藍軍部隊進行指揮層面的對抗,完整實現(xiàn)演訓準備、組織實施和總結評估全流程。
1.1 兵棋是棋
與常規(guī)棋一樣,兵棋體現(xiàn)了兩個核心因素,(1)規(guī)則制定的客觀性;(2)行棋過程的自由性。兵棋系統(tǒng)的基本構成要素主要有棋子、棋盤、規(guī)則、骰子(隨機數(shù)發(fā)生器)、回合以及裁決表。兵棋中的棋子、棋盤、裁決表等都是具象化、數(shù)字化、精確化棋的客觀特征體現(xiàn)。兵棋的核心是兵棋規(guī)則,包括規(guī)定棋子在地圖上如何移動的行棋規(guī)則和判定兩支部隊相遇時交戰(zhàn)結果的裁判規(guī)則。兵棋的行棋過程又稱為兵棋推演,推演者采取類似博弈的過程輪流行棋,另設裁判者依據(jù)裁判規(guī)則對場上局勢進行裁定。此外,推演過程中還通過擲骰子模擬戰(zhàn)場上的隨機因素。
1.2 兵棋非“棋”
兵棋推演往往是要展現(xiàn)實際作戰(zhàn)過程,很難通過“下棋”中嚴格的“你來我往”的回合制來全面體現(xiàn)。兵棋推演需要通過以上六個基本要素之間的相互作用,充分體現(xiàn)了實際戰(zhàn)爭過程中的戰(zhàn)場復雜性、戰(zhàn)況緊迫性、戰(zhàn)情隨機性、戰(zhàn)果規(guī)律性等,需要能逼真地反映實際作戰(zhàn)過程,陸、海、空、火、天、網等聯(lián)合作戰(zhàn)的特點,需要各方根據(jù)態(tài)勢發(fā)展進行不斷地判斷和決策,從而模擬出實際的作戰(zhàn)流程及作戰(zhàn)效果[5-13]。戰(zhàn)爭還有一個顯著的特點就是不可重復性,同樣的基礎對抗條件,在不同的隨機因素影響下會產生完全不同的結果。由此可見,兵棋推演需要模擬的作戰(zhàn)要素繁多,關系錯綜復雜,態(tài)勢瞬息萬變,常規(guī)的“棋”很難涵蓋完整這么一個復雜系統(tǒng)。
1.3 計算機兵棋
兵棋推演本身對工具支撐并無太多要求,其流行之初也是以手工兵棋為主要手段。傳統(tǒng)手工兵一般以棋子進攻、防御二值描述,采用的是力量對比方式,在增加隨機因素的基礎上,用表格的形式進行裁決以得到交戰(zhàn)結果。
其后,為了節(jié)約人力和時間、提高推演效率,體現(xiàn)更復雜的聯(lián)合作戰(zhàn)行動模擬效果,開始出現(xiàn)了計算機兵棋。計算機兵棋推演體系采用完善的軍事地理系統(tǒng)軟件,提供規(guī)范化的作業(yè)平臺,軍事應用人員可以更加聚焦于對抗推演本身,使兵棋推演過程和實際作戰(zhàn)指揮結合得更密切。隨著現(xiàn)代計算機兵棋理念的發(fā)展,支撐規(guī)模化指揮對抗模擬的復雜兵棋系統(tǒng),也開始逐步打破傳統(tǒng)兵棋回合制的推演過程,向實時推演轉變。在計算機兵棋推演環(huán)境中,作戰(zhàn)兵力的動態(tài)性、作戰(zhàn)過程的隨機性、作戰(zhàn)決策的多樣性更能造就兵棋推演環(huán)境中的復雜性。
2 深度學習與強化學習
人工智能涉及的關鍵技術十分廣泛,其中神經網絡、強化學習和深度學習技術是其重要的代表。
神經網絡技術從信息處理角度對人腦神經元網絡進行抽象,建立某種簡單模型,按不同的連接方式組成不同的網絡。體現(xiàn)出了卓越的自我學習、反饋聯(lián)想、高效尋優(yōu)的能力特點。而在神經網絡技術基礎上發(fā)展起來的深度學習和強化學習對人工智能技術的成熟和推廣起到了重要的作用。
具有感知能力的深度學習(deeplearning, DL)是基于神經網絡上的一種再升級,是一種通過對大量有效樣本的學習,形成對事物特征的提取、分類和解讀的方法。
深度學習通過建立、模擬人腦進行分析學習的神經網絡,模仿人腦的機制來獲取、分析和解釋數(shù)據(jù),通過無監(jiān)督的預訓練,有監(jiān)督的逐層訓練、微調訓練等過程,逐步提煉出事物內在的關聯(lián)關系、結構關系和邏輯關系等。
目前典型的深度學習模型包括:卷積神經網絡、深度置信網絡(deep belief network, DBN)、堆棧自編碼網絡(stacked auto-encoder,SAE)和遞歸神經網絡(recursive neural network,RNN)等。
具有決策能力的強化學習(reinforcement learning,RL)充則分融入了試錯機制,并以此與環(huán)境進行信息交互,通過有效累積獎賞的方式來學習到最優(yōu)策略,這幾乎就是生物有效適應環(huán)境的途徑。強化學習系統(tǒng)通常由 4 個基本部分組成:狀態(tài) s,動作 a,狀態(tài)轉移概率 Pas,s′和獎賞信號 r。整個策略途徑 π:S→A 被定義為從狀態(tài)空間到動作空間的映射,智能算法依據(jù)上述策略途徑 π 選擇并執(zhí)行動作 a。以概率 Pas,s′從當前狀態(tài) s 轉移到下一狀態(tài) s′,過程中與環(huán)境進行信息交互,依據(jù)接收到的獎賞反饋信號 r,通過值函數(shù)估計當前策略途徑π的優(yōu)劣程度,從而進一步優(yōu)化調整策略,力求累積最大化的獎賞。目前常用的強化學習方法包括蒙特卡羅、SARSA 學習、策略梯度和自適應動態(tài)規(guī)劃等。
深度學習具有較強的感知能力,使得從海量原始數(shù)據(jù)中提取高水平特征數(shù)據(jù)變成可能,但是缺乏一定的決策能力。而強化學習具有決策能力,又不擅長于感知問題。既然感知和決策是人工智能技術的核心能力體現(xiàn)。
因此,將兩者結合起來,形成優(yōu)勢互補,就為提高復雜系統(tǒng)的感知決策能力提供了解決思路。這一思路同樣適用于復雜的計算機兵棋領域。
3 人工智能對兵棋推演的影響
人工智能的快速發(fā)展,將計算機兵棋的作用從節(jié)約人力和時間、提高推演效率、支撐復雜推演提升到了打造指揮對抗領域的智能藍軍和輔助參謀的高度。所謂智能藍軍,就是讓系統(tǒng)充當既定假想“藍軍”“綠軍”參加演習。通過對有限樣本數(shù)據(jù)的不斷深度學習、強化學習,使得對手變得更加專業(yè)、更像假想藍軍,從而實現(xiàn)局部乃至全局的人機對抗。所謂輔助參謀,就是計算機系統(tǒng)充當隱藏于幕后的我方部分指揮力量、參謀力量,實現(xiàn)識別態(tài)勢、發(fā)布計劃、自主決策、監(jiān)控行動、調整任務等功能,為我方指揮提供實時精準參謀。
4 問題及解決途徑
人工智能迅猛發(fā)展,核心技術突飛猛進。但人工智能技術在計算機兵棋領域的深入發(fā)展也存在以下的不確定性,其根源還在“棋”與“戰(zhàn)”固有的巨大差異,還在于如何將全面感知和精準決策的根本目標在兵棋領域實現(xiàn)。
(1)有效樣本的獲取。目前戰(zhàn)術、戰(zhàn)役乃至戰(zhàn)略層級的計算機兵棋平臺百花齊放、層出不窮,先不論其自身的完善性、置信度,就目前基于上述平臺的推演數(shù)據(jù)而言,基本屬于量多質低的情況。在未能深入、全面研究假想“藍軍”的情況下,其指揮環(huán)節(jié)的戰(zhàn)術戰(zhàn)法往往就發(fā)散為自由發(fā)揮的“紅軍”思想。同理,在無逼真“藍軍”模擬的情況下,“紅軍”的指揮思路也更無針對性可言,用于支撐深度學習的數(shù)據(jù)樣本的有效性和標簽性均難以保證。所以,人工智能技術若想在計算機兵棋領域得以深入發(fā)展,需要確立可作為各類標簽數(shù)據(jù)的基本標準,參透并運用好特定“藍軍”的戰(zhàn)術戰(zhàn)法,生產出涵蓋所需標簽類別的足夠數(shù)量數(shù)據(jù),用以支撐深度學習。
(2)信息感知與研判。常規(guī)棋盤是透明的,是一種典型的開放式信息感知狀態(tài)下的博弈。當前的棋面信息對于雙方棋手來說是完全公平和透明的,棋手每走一步,都可以根據(jù)當前的盤面信息做出決策。
而戰(zhàn)爭過程并不是全透明的,甚至有時故意假亦真時真亦假,往往會釋放出戰(zhàn)爭迷霧,須要通過綜合情報偵察和分析來獲取有效、真實戰(zhàn)場信息,這決定了兵棋推演完全應該是一種信息非對稱條件下的動態(tài)指揮博弈。兵棋推演過程若沒有情報探測、戰(zhàn)場感知等要素的支撐,就無法體現(xiàn)“交戰(zhàn)”雙方在感知層面的手段高低和能力差異。若無法通過強化學習手段讓人工智能逐步掌握剝離戰(zhàn)爭迷霧、獲取有用信息的研判和決策能力,人工智能技術也將無法進一步發(fā)揮打造“智能藍軍”和“輔助參謀”的作用。
(3)規(guī)則的確定性。一般棋類博弈的規(guī)則是確定的、清晰的,規(guī)則對于雙方也都是同等的、公平的,對抗的初始條件也是對等的。而在兵棋推演領域,由于對抗雙方實力可能不對等、對抗初始態(tài)勢可能不對等,使得對抗的初始條件也不可能按對等來設置。指揮員處理推演過程復雜的實際戰(zhàn)場問題主要依賴于專業(yè)訓練和指揮經驗,而專業(yè)訓練又依賴于軍事理論知識和戰(zhàn)爭推演經驗的綜合積累。
兵棋自身的復雜性和這種互為因果的重復迭代性決定了兵棋在規(guī)則層面也在不斷自我完善,需要不斷將經驗層面的乃至情感層面的積累進一步提煉為可解讀、可執(zhí)行的推演規(guī)則。
推演規(guī)則的這種不斷再理解、再完善狀態(tài),會讓人工智能技術在某些特殊情況處理上無所適從,增加了深度強化學習的難度。
5 結語
人工智能技術的發(fā)展將計算機兵棋的作用向前進了一大步,使之從條件支撐的角色轉變?yōu)樯疃葏⑴c的角色。但其中支撐強大感知和決策能力的深度強化學習技術也還處于不斷發(fā)展過程完善過程中。考慮到作戰(zhàn)推演的復雜性,人機結合可能是當前一個比較穩(wěn)妥的過渡的方式,暫且將人的優(yōu)勢和機器優(yōu)勢相結合來解決推演的實際問題。通過不斷摸索、不斷學習,相信在兵棋推演領域人工智能技術將與人的指揮水平形成共同進步的雙贏局面。
-
人工智能
+關注
關注
1791文章
47282瀏覽量
238536 -
數(shù)字化
+關注
關注
8文章
8742瀏覽量
61791
原文標題:人工智能在計算機兵棋推演領域的應用
文章出處:【微信號:appic-cn,微信公眾號:集成電路應用雜志】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論