五月天激情四射AV,国产白丝喷水娇喘视频

今日凌晨，OpenAI發(fā)布Neural MMO—一個(gè)強(qiáng)化學(xué)習(xí)的大型多智能體游戲環(huán)境。這一平臺(tái)可以在持久性和開放式任務(wù)中支持大量可變數(shù)量的智能體。

一直以來，人工智能研究者都希望讓智能體（agent）學(xué)會(huì)合作競(jìng)爭(zhēng)，一些研究者也認(rèn)為這是實(shí)現(xiàn)通用人工智能（AGI）的必要條件。

17年7月份，OpenAI、麥吉爾大學(xué)和 UC Berkeley 聯(lián)合提出了一種“用于合作-競(jìng)爭(zhēng)混合環(huán)境的多智能體 actor-critic”，可用于多智能體環(huán)境中的中心化學(xué)習(xí)（centralized learning）和去中心化執(zhí)行（decentralized execution），讓智能體可以學(xué)會(huì)彼此合作和競(jìng)爭(zhēng)。

論文地址：

https://arxiv.org/pdf/1706.02275.pdf

之后，OpenAI也一直沒有放棄對(duì)多智能體學(xué)習(xí)環(huán)境的探索。

今日凌晨，OpenAI宣稱發(fā)布Neural MMO——一個(gè)強(qiáng)化學(xué)習(xí)的大型多智能體游戲環(huán)境。這一多智能體的環(huán)境可以探索更兼容和高效的整體環(huán)境，力求在復(fù)雜度和智能體人數(shù)上獲取難得的平衡。

近年來，多重代理設(shè)置已成為深度強(qiáng)化學(xué)習(xí)研究的一個(gè)有效平臺(tái)。盡管進(jìn)展頗豐，但其仍存在兩個(gè)主要挑戰(zhàn)：當(dāng)前環(huán)境要么復(fù)雜但過于受限，要么開放但過于簡(jiǎn)單。

其中，持久性和規(guī)?；瘜⑹翘接懙年P(guān)鍵屬性，但研究者們還需要更好的基準(zhǔn)測(cè)試環(huán)境，在存在大量人口規(guī)模和持久性的情況下量化學(xué)習(xí)進(jìn)度。這一游戲類型（MMO：大型多人在線游戲）模擬了在持續(xù)和廣泛環(huán)境中可變數(shù)量玩家進(jìn)行競(jìng)爭(zhēng)的大型生態(tài)系統(tǒng)。

為了應(yīng)對(duì)這些挑戰(zhàn)，OpenAI構(gòu)建了神經(jīng)MMO以滿足以下標(biāo)準(zhǔn)：

持久性：在沒有環(huán)境重置的情況下，代理可以在其他學(xué)習(xí)代理存在的情況下同時(shí)學(xué)習(xí)。策略必須具有遠(yuǎn)見思維，并適應(yīng)其他代理行為的潛在快速變化。

比例：環(huán)境支持大量且可變數(shù)量的實(shí)體。實(shí)驗(yàn)考慮了100個(gè)并發(fā)服務(wù)器中每個(gè)服務(wù)器128個(gè)并發(fā)代理且長達(dá)100M的生命周期。

效率：進(jìn)入的計(jì)算障礙很低?？梢栽趩蝹€(gè)桌面CPU上培訓(xùn)有效的策略。

擴(kuò)展：與現(xiàn)有MMO類似，Neural MMO旨在更新內(nèi)容。目前的核心功能包括基于拼接單元塊（tile-based）的地形的程序生成，食物和水覓食系統(tǒng)以及戰(zhàn)略戰(zhàn)斗系統(tǒng)。未來有機(jī)會(huì)進(jìn)行開源驅(qū)動(dòng)的擴(kuò)展。

OpenAI在博客中詳細(xì)介紹了這一新環(huán)境。

環(huán)境

玩家（代理）可以加入任何可用的服務(wù)器（環(huán)境），每個(gè)都會(huì)包含一個(gè)可配置大小、且自動(dòng)生成的基于圖塊的游戲地圖。一些障礙塊，例如森林和草，是可穿越的；其他的如水和實(shí)心巖石，則不能穿越。

代理在環(huán)境邊緣的隨機(jī)位置產(chǎn)生。他們需要獲得食物和水，并避免其他代理的戰(zhàn)斗傷害，以維持自己的生存。踩在森林地塊上或出現(xiàn)在水資源地塊的旁邊會(huì)分別填充一部分代理的食物和水供應(yīng)。然而，森林的食物供應(yīng)有限，隨著時(shí)間的推移會(huì)緩慢再生。這意味著代理必須競(jìng)爭(zhēng)食品塊，同時(shí)定期補(bǔ)充水源。玩家還可以使用三種戰(zhàn)斗風(fēng)格參與戰(zhàn)斗，分別為混戰(zhàn)，游獵及魔法。

輸入：代理觀察以其當(dāng)前位置為中心的方形區(qū)域。這包括地塊類型和占用代理的選擇屬性（健康，食物，水和位置）。

輸出：代理為下一個(gè)游戲單位時(shí)間（timestep）輸出操作選項(xiàng)。該操作由一個(gè)動(dòng)作和一個(gè)攻擊組成。

模型

作為一個(gè)簡(jiǎn)單的基準(zhǔn)，我們使用vanilla策略梯度訓(xùn)練一個(gè)小型，完全連接的架構(gòu)，并把值函數(shù)基準(zhǔn)和獎(jiǎng)勵(lì)折扣作為唯一的增強(qiáng)功能。在這個(gè)模型中，獎(jiǎng)勵(lì)策略并不針對(duì)實(shí)現(xiàn)特定目標(biāo)，而是針對(duì)其生命周期（軌跡長度）進(jìn)行優(yōu)化：他們?cè)谄渖芷诘拿總€(gè)單位時(shí)間上獲得獎(jiǎng)勵(lì)1。我們通過計(jì)算所有代理的最大值來將可變長度觀測(cè)值（例如周圍代理列表）轉(zhuǎn)換為單個(gè)長度向量（OpenAI Five也使用了這個(gè)技巧）?；赑yTorch和Ray，源版本包括我們完整分布式培訓(xùn)的實(shí)現(xiàn)。

訓(xùn)練中最大種群數(shù)量在（16,32,64,128）之間變化。為了提高效率，在測(cè)試時(shí)，將在一對(duì)實(shí)驗(yàn)中學(xué)到的特定群進(jìn)行合并，并在一個(gè)固定的范圍內(nèi)進(jìn)行評(píng)估。只對(duì)作戰(zhàn)策略進(jìn)行評(píng)估，因?yàn)橹苯恿炕鲬?zhàn)策略比較困難。通常來說，在更大的分布范圍內(nèi)進(jìn)行訓(xùn)練效果會(huì)更好。

代理的策略是從多個(gè)種群中簡(jiǎn)單抽樣——不同種群中的代理共享體系結(jié)構(gòu)，但只有相同種群中的代理共享權(quán)重。初步實(shí)驗(yàn)表明，隨著多智能體相互作用的增加，智能體的能力也隨之增加。增加并發(fā)智能體的最大數(shù)量將放大探索行為；增加種群的數(shù)量將放大生態(tài)位形成——也就是說，種群在地圖的不同部分?jǐn)U散和覓食的趨勢(shì)。

在評(píng)估跨多臺(tái)服務(wù)器的玩家能力方面，并沒有統(tǒng)一的標(biāo)準(zhǔn)。然而，有時(shí)，MMO服務(wù)器會(huì)進(jìn)行合并。我們通過合并在不同服務(wù)器中訓(xùn)練的玩家基地來實(shí)現(xiàn)“錦標(biāo)賽”風(fēng)格的評(píng)估。這使得我們可以直接比較在不同實(shí)驗(yàn)環(huán)境中學(xué)到的策略。改變了測(cè)試時(shí)間范圍，發(fā)現(xiàn)在較大環(huán)境下訓(xùn)練的代理一直優(yōu)于在較小環(huán)境中訓(xùn)練的代理。

評(píng)估結(jié)果

服務(wù)器合并條件下的錦標(biāo)賽：多代理放大了競(jìng)爭(zhēng)行為

在跨多臺(tái)服務(wù)器隊(duì)玩家能力的能力進(jìn)行評(píng)估時(shí)，我們并沒有統(tǒng)一的標(biāo)準(zhǔn)。然而，有時(shí)MMO服務(wù)器會(huì)進(jìn)行合并。我們通過合并在不同服務(wù)器中訓(xùn)練的玩家基地來實(shí)現(xiàn)“錦標(biāo)賽”風(fēng)格的評(píng)估。這使得我們可以直接比較在不同實(shí)驗(yàn)環(huán)境中學(xué)到的策略。改變了測(cè)試時(shí)間范圍后，我們發(fā)現(xiàn)，在較大環(huán)境下訓(xùn)練的代理一直優(yōu)于在較小環(huán)境中訓(xùn)練的代理。

種群規(guī)模的增加放大了探索行為

種群規(guī)模放大了探索行為：代理表現(xiàn)出分散開來的特征以避免競(jìng)爭(zhēng)。最后幾幀顯示學(xué)習(xí)值函數(shù)疊加。有關(guān)其他參數(shù)，請(qǐng)參閱論文：

https://s3-us-west-2.amazonaws.com/openai-assets/neural-mmo/neural-mmo-arxiv.pdf

在自然世界中，動(dòng)物之間的競(jìng)爭(zhēng)可以激勵(lì)它們分散開來以避免沖突。我們觀察到，隨著并發(fā)代理數(shù)量的增加，映射覆蓋率增加。代理學(xué)習(xí)探索僅僅是因?yàn)槠渌淼拇嬖谔峁┝诉@樣做的自然動(dòng)機(jī)。物種數(shù)量的增加擴(kuò)大了生態(tài)位形成的幾率。

物種數(shù)量的增加擴(kuò)大了生態(tài)位的形成。

物種數(shù)量（種群數(shù)量）放大了生態(tài)位的形成。上圖中訪問地圖覆蓋了游戲地圖；不同的顏色對(duì)應(yīng)不同的物種。訓(xùn)練單一物種傾向于產(chǎn)生單一的深度探索路徑。訓(xùn)練八個(gè)物種則會(huì)導(dǎo)致許多較淺的探索路徑：種群擴(kuò)散以避免物種之間的競(jìng)爭(zhēng)。

鑒于環(huán)境足夠大且資源豐富，我們發(fā)現(xiàn)不同的代理群在地圖上呈現(xiàn)分散的特點(diǎn)，以避免隨著數(shù)量的增加與其他代理產(chǎn)生競(jìng)爭(zhēng)。由于代理不能與自己種群中的其他代理競(jìng)爭(zhēng)（即與他們共享權(quán)重的代理），他們傾向于尋找包含足夠資源來維持其種群數(shù)量的地圖區(qū)域。在DeepMind的并發(fā)多代理研究中也獨(dú)立地觀察到類似的效果。

并發(fā)多代理研究：

https://arxiv.org/abs/1812.07019

其他見解

每個(gè)方形圖顯示位于中心的代理對(duì)其周圍代理的存在的響應(yīng)。我們?cè)诔跏蓟陀?xùn)練早期展示覓食地圖；額外的依賴圖對(duì)應(yīng)于覓食和戰(zhàn)斗的不同表述。

我們通過將代理固定在假設(shè)的地圖中心來對(duì)代理進(jìn)行可視化。對(duì)于該代理可見的每個(gè)位置，我們將顯示在該位置有第二個(gè)代理時(shí)的值函數(shù)。

我們發(fā)現(xiàn)代理商在覓食和戰(zhàn)斗環(huán)境中，可以學(xué)習(xí)依賴于其他代理的策略。代理學(xué)習(xí)“插眼（bull’s eye）”行為時(shí)，在幾分鐘的訓(xùn)練后就能更有效地開始覓食。當(dāng)代理學(xué)習(xí)環(huán)境的戰(zhàn)斗力學(xué)時(shí)，他們開始適當(dāng)?shù)卦u(píng)估有效的接觸范圍和接近角度。

下一步

Neural MMO解決了之前基于游戲環(huán)境的兩個(gè)主要限制，但仍有許多尚未解決。這種Neural MMO在環(huán)境復(fù)雜性和人口規(guī)模之間盡力尋求平衡。OpenAI在設(shè)計(jì)這個(gè)環(huán)境時(shí)考慮了開源擴(kuò)展，并為研究社區(qū)提供了基礎(chǔ)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1792

文章
47425

瀏覽量
238960
智能體

智能體

+關(guān)注

關(guān)注
1

文章
157

瀏覽量
10596
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
268

瀏覽量
11270

原文標(biāo)題：OpenAI發(fā)布Neural MMO ：大型多智能體游戲環(huán)境

文章出處：【微信號(hào)：BigDataDigest，微信公眾號(hào)：大數(shù)據(jù)文摘】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

OpenAI目標(biāo)轉(zhuǎn)向“超級(jí)智能”

(superintelligence)”。 Altman在博客中強(qiáng)調(diào)，OpenAI對(duì)于當(dāng)前的產(chǎn)品充滿熱愛，但公司的使命遠(yuǎn)不止于此。他們?cè)谶@里，是為了追求一個(gè)更加輝煌的未來，一

發(fā)表于 01-07 10:57 ?205次閱讀

OpenAI 發(fā)了一個(gè)支持 ESP32 的 Realtime API SDK

“ ?昨晚 OpenAI 正式發(fā)布了 o3 模型，AI 圈一片沸騰。作為電子工程師的我撓了撓頭，好像和我沒什么直接的關(guān)系??倒是 OpenAI 的另

發(fā)表于 12-21 11:36 ?3471次閱讀

【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+初品的體驗(yàn)

解決許多技術(shù)的和非技術(shù)的挑戰(zhàn)，如提高智能體的自主性、處理復(fù)雜環(huán)境互動(dòng)的能力及確保行為的倫理和安全性。未來的研究需要將視覺、語音和其他傳感技術(shù)與機(jī)器人技術(shù)相結(jié)合，以探索更加先進(jìn)的知識(shí)表示和記憶模塊，利用

發(fā)表于 12-20 19:17

《具身智能機(jī)器人系統(tǒng)》第1-6章閱讀心得之具身智能機(jī)器人系統(tǒng)背景知識(shí)與基礎(chǔ)模塊

與環(huán)境持續(xù)互動(dòng)來優(yōu)化決策策略。書中還進(jìn)一步討論了強(qiáng)化學(xué)習(xí)的基本原理，包括狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)，以及策略網(wǎng)絡(luò)的訓(xùn)練方法。具身智能機(jī)器人系統(tǒng)是

發(fā)表于 12-19 22:26

OpenAI未來3周舉行12場(chǎng)新品發(fā)布會(huì) 我們能期待些什么？ #OpenAI #人工智能 #AI

OpenAI

jf_15747056
發(fā)布于 :2024年12月05日 18:07:51

OpenAI連續(xù)12天直播，揭秘新產(chǎn)品與功能

當(dāng)?shù)貢r(shí)間12月4日開始，并持續(xù)至12個(gè)工作日結(jié)束。每天的直播都將為觀眾帶來不同的驚喜，包括一些大型的產(chǎn)品發(fā)布和精心準(zhǔn)備的圣誕禮物。這不僅是對(duì)Open

發(fā)表于 12-05 11:12 ?508次閱讀

MMO陽極和柔性陽極的區(qū)別

MMO陽極（金屬氧化物涂層陽極）和柔性陽極它們?cè)谠O(shè)計(jì)、應(yīng)用和性能方面存在顯著差異。

發(fā)表于 12-01 16:57 ?162次閱讀

螞蟻集團(tuán)收購邊塞科技，吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家

領(lǐng)域的研究與發(fā)展。令人矚目的是，邊塞科技的創(chuàng)始人吳翼已正式加入該實(shí)驗(yàn)室，并擔(dān)任首席科學(xué)家一職。吳翼在其個(gè)人社交平臺(tái)上對(duì)這一變動(dòng)進(jìn)行了回應(yīng)。他表示，自己最近接受了螞蟻集團(tuán)的邀請(qǐng)，負(fù)責(zé)大模型強(qiáng)化學(xué)習(xí)領(lǐng)域的研究工

發(fā)表于 11-22 11:14 ?632次閱讀

如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

的計(jì)算圖和自動(dòng)微分功能，非常適合實(shí)現(xiàn)復(fù)雜的強(qiáng)化學(xué)習(xí)算法。 1. 環(huán)境（Environment）在強(qiáng)化學(xué)習(xí)中，環(huán)境是一

發(fā)表于 11-05 17:34 ?325次閱讀

具身智能與機(jī)器學(xué)習(xí)的關(guān)系

（如機(jī)器人、虛擬代理等）通過與物理世界或虛擬環(huán)境的交互來獲得、發(fā)展和應(yīng)用智能的能力。這種智能不僅包括認(rèn)知和推理能力，還包括感知、運(yùn)動(dòng)控制和環(huán)境適應(yīng)能力。具身

發(fā)表于 10-27 10:33 ?410次閱讀

谷歌AlphaChip強(qiáng)化學(xué)習(xí)工具發(fā)布，聯(lián)發(fā)科天璣芯片率先采用

近日，谷歌在芯片設(shè)計(jì)領(lǐng)域取得了重要突破，詳細(xì)介紹了其用于芯片設(shè)計(jì)布局的強(qiáng)化學(xué)習(xí)方法，并將該模型命名為“AlphaChip”。據(jù)悉，AlphaChip有望顯著加速芯片布局規(guī)劃的設(shè)計(jì)流程，并幫助芯片在性能、功耗和面積方面實(shí)現(xiàn)更優(yōu)表現(xiàn)。

發(fā)表于 09-30 16:16 ?435次閱讀

通過強(qiáng)化學(xué)習(xí)策略進(jìn)行特征選擇

更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中，我們將介紹并實(shí)現(xiàn)一種新的通過強(qiáng)化學(xué)習(xí)策略的特征選擇。我們先討論強(qiáng)化學(xué)習(xí)，尤其是馬爾可夫決策

發(fā)表于 06-05 08:27 ?375次閱讀

OpenAI 深夜拋出王炸 “ChatGPT- 4o”， “她” 來了

當(dāng)?shù)貢r(shí)間5月13日OpenAI推出ChatGPT-4o，代表了人工智能向前邁出的一大步。在GPT-4turbo的強(qiáng)大基礎(chǔ)上，這種迭代擁有顯著的改進(jìn)。在發(fā)布會(huì)的演示中，

發(fā)表于 05-27 15:43

Sora與世界模型：為何它未能成為全面代表？

當(dāng)AI領(lǐng)域中講到世界/world、環(huán)境/environment 這個(gè)詞的時(shí)候，通常是為了與智能體/agent 加以區(qū)分。研究智能體最多的

發(fā)表于 02-29 12:37 ?1017次閱讀

一文詳解Transformer神經(jīng)網(wǎng)絡(luò)模型

Transformer模型在強(qiáng)化學(xué)習(xí)領(lǐng)域的應(yīng)用主要是應(yīng)用于策略學(xué)習(xí)和值函數(shù)近似。強(qiáng)化學(xué)習(xí)是指讓機(jī)器在與環(huán)境互動(dòng)的過程中，通過試錯(cuò)來學(xué)習(xí)最優(yōu)的

發(fā)表于 02-20 09:55 ?1.5w次閱讀