最近,OpenAI 發(fā)布了一個名為“Neural MMO”的大型多智能體游戲環(huán)境,該平臺支持在一個持久開放的任務(wù)中使用大量且數(shù)量可變的智能體。大量智能體和物種的加入導(dǎo)致了更好的勘探,不同的生態(tài)位形成,和更大的整體能力。
近年來,多智能體設(shè)置已成為深度強(qiáng)化學(xué)習(xí)的有效研究平臺。盡管取得了這些進(jìn)展,多智能體強(qiáng)化學(xué)習(xí)仍然面臨兩大挑戰(zhàn)。我們需要創(chuàng)建具有高度復(fù)雜性上限的開放式任務(wù):當(dāng)前環(huán)境要么復(fù)雜但應(yīng)用面太窄,要么開放但太簡單。持久性和大規(guī)模等屬性是關(guān)鍵,但是我們還需要更多的基準(zhǔn)環(huán)境來量化大規(guī)模和持久性的學(xué)習(xí)進(jìn)度。而這次大型多人在線游戲 (MMOs) 模擬了一個大型生態(tài)系統(tǒng),該系統(tǒng)由數(shù)量不等的玩家在持久且廣泛的環(huán)境中進(jìn)行生存競爭。
為了應(yīng)對這些挑戰(zhàn),OpenAI 構(gòu)建了符合以下標(biāo)準(zhǔn)的神經(jīng) MMO:
1、持久性: 無需環(huán)境重置,智能體在其他學(xué)習(xí)智能體存在的情況下并發(fā)學(xué)習(xí)。策略必須考慮長期的范圍,并適應(yīng)其他智能體行為中潛在的快速變化。
2、規(guī)模:環(huán)境支持大量數(shù)量可變的實體。OpenAI 的實驗考慮了在 100 個并發(fā)服務(wù)器中的每個服務(wù)器中 128 個并發(fā)智能體的最長 1 億個生存期。
3、效率:入門計算門檻很低。OpenAI 可以在單個桌面 CPU 上訓(xùn)練出有效的策略。
4、擴(kuò)展:與現(xiàn)有的 MMO 們類似,OpenAI 設(shè)計 Neural MMO 也是為了更新新內(nèi)容。目前的核心功能包括瓦片地形的程序生成、食物和水的覓食系統(tǒng)以及戰(zhàn)略作戰(zhàn)系統(tǒng)。開源驅(qū)動的擴(kuò)展在未來是有機(jī)會的。
在這個游戲環(huán)境中,玩家 (智能體) 可以加入任何可用的服務(wù)器 (環(huán)境),每個服務(wù)器 (環(huán)境) 都包含一個自動生成的可配置大小的瓦片地形游戲地圖。有些地磚,如可食用的森林地磚和草地磚,是可移動的。其他的,如水和固體石,則不是。智能體程序在環(huán)境邊緣的隨機(jī)位置生成。他們必須獲得食物和水,并避免戰(zhàn)斗傷害從其他智能體,以維持他們的健康。踩在森林地磚上或靠近水磚的地方,分別會重新填充代理的部分食物或供水。然而,森林地磚的食物供應(yīng)有限,隨著時間的推移,食物會緩慢再生。這意味著智能體必須競爭食物磚,同時周期性地從無限的水磚中補(bǔ)充他們的水供應(yīng)。玩家在戰(zhàn)斗中使用三種戰(zhàn)斗風(fēng)格,代表肉搏(近戰(zhàn)),射手(遠(yuǎn)程物理攻擊)和法師(遠(yuǎn)程魔法攻擊)。
(來源:OpenAI)
這個平臺提供了一個過程化的環(huán)境生成器和可視化工具,用于實現(xiàn)值函數(shù)、映射訪問分布和學(xué)習(xí)策略的智能體依賴性?;€使用超過 100 個世界的策略梯度進(jìn)行訓(xùn)練。
作為一個簡單的基線團(tuán)隊使用普通的策略梯度來訓(xùn)練一個小型的、完全連接的體系結(jié)構(gòu),將值函數(shù)基線和獎勵折扣作為唯一增強(qiáng)。智能體不會因為實現(xiàn)特定的目標(biāo)而獲得獎勵,而是只根據(jù)其生命周期 (軌跡長度) 進(jìn)行優(yōu)化——即在其生命周期中,每一次滴答聲都會獲得 1 個獎勵。團(tuán)隊通過計算所有玩家的最大值 (OpenAI Five 也使用了這個技巧),將可變長度的觀察值 (比如周圍玩家的列表) 轉(zhuǎn)換為單個長度向量。源版本基于 PyTorch 和 Ray 實現(xiàn),包括完全分布式培訓(xùn)。
圖丨為了提高效率,策略在由 16 個智能體組成的組之間共享。在測試時,合并在成對實驗中學(xué)到的總體,并在一個固定的總體大小下評估生存期,且只對覓食進(jìn)行評估,因為作戰(zhàn)策略更難直接比較。在更大的人群中訓(xùn)練出來的智能體總是更優(yōu)秀(來源:OpenAI)
智能體的策略是從多個種群中均勻采樣的——不同種群中的代理共享架構(gòu),但只有相同種群中的智能體共享權(quán)重。初步實驗表明,隨著多智能體交互作用的增加,智能體的能力逐漸增強(qiáng)。增加并發(fā)玩家的最大數(shù)量會放大探索;種群數(shù)量的增加放大了生態(tài)位的形成,也就是說,種群在地圖不同區(qū)域的分布和覓食的趨勢。
在老版本的 mmo 中沒有標(biāo)準(zhǔn)的程序來評估跨服務(wù)器的相對玩家能力。然而,MMO 服務(wù)器有時會經(jīng)歷合并,即來自多個服務(wù)器的玩家基地被放置在單個服務(wù)器中。團(tuán)隊通過合并在不同服務(wù)器上訓(xùn)練的玩家基礎(chǔ)來實現(xiàn)“錦標(biāo)賽”風(fēng)格的評估。這使團(tuán)隊能夠直接比較在不同實驗環(huán)境中學(xué)習(xí)到的策略。團(tuán)隊改變了測試時間范圍,發(fā)現(xiàn)在較大環(huán)境中訓(xùn)練的智能體始終優(yōu)于在較小環(huán)境中訓(xùn)練的智能體。
在自然界中,動物之間的競爭促使它們分散開來以避免沖突。OpenAI 觀察到,隨著并發(fā)智能體數(shù)量的增加,映射覆蓋率也在增加。智能體學(xué)習(xí)探索僅僅是因為其他智能體的存在提供了這樣做的自然動機(jī)。
圖丨物種數(shù)量 (種群數(shù)量) 放大了生態(tài)位的形成。探視地圖覆蓋游戲地圖;不同的顏色對應(yīng)不同的物種。訓(xùn)練單一種群往往會產(chǎn)生單一的深度探索路徑。訓(xùn)練 8 個種群會導(dǎo)致許多更淺的路徑:種群分散以避免物種間的競爭(來源:OpenAI)
在一個足夠大且資源豐富的環(huán)境中,團(tuán)隊發(fā)現(xiàn)不同的智能體種群分布在整個地圖上,以避免在種群增長時與其他智能體競爭。由于實體無法在競爭中勝過其人口中的其他智能體 (即與它們共享權(quán)重的代理),它們傾向于在地圖上尋找包含足夠資源以維持其人口的區(qū)域。DeepMind 在并發(fā)多代理研究中也獨立觀察到類似的效果。
圖丨每個正方形映射顯示位于正方形中心的智能體對其周圍的智能體的響應(yīng)。我們展示了初始化和訓(xùn)練早期的覓食圖;額外的依賴關(guān)系映射對應(yīng)于不同的覓食和戰(zhàn)斗公式(來源:OpenAI)
OpenAI 通過將智能體固定在假想映射作物的中心來可視化智能體-智能體依賴關(guān)系。對于該智能體可見的每個位置,OpenAI 將顯示如果在該位置有第二個智能體,值函數(shù)將是什么。OpenAI 發(fā)現(xiàn),在覓食和戰(zhàn)斗環(huán)境中,智能體學(xué)習(xí)依賴于其他智能體的策略。智能體們學(xué)習(xí)“牛眼”躲避地圖,在僅僅幾分鐘的訓(xùn)練后就能更有效地開始搜尋。當(dāng)智能體們學(xué)習(xí)環(huán)境中的戰(zhàn)斗機(jī)制時,他們開始學(xué)會適當(dāng)?shù)卦u估有效的交戰(zhàn)范圍和接近的角度。
總而言之,OpenAI 的 Neural MMO 解決了之前基于游戲環(huán)境的兩個關(guān)鍵限制,但仍有許多問題沒有解決。未來我們還能期待更多的突破。
-
可視化
+關(guān)注
關(guān)注
1文章
1198瀏覽量
20996 -
智能體
+關(guān)注
關(guān)注
1文章
163瀏覽量
10600 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
268瀏覽量
11275
原文標(biāo)題:堪稱游戲 AI“養(yǎng)蠱”!OpenAI 發(fā)布大型多智能體游戲環(huán)境
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論