0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind的“星際2”智能體AlphaStar實(shí)際上是演化算法?

DPVg_AI_era ? 來(lái)源:lq ? 2019-02-13 10:34 ? 次閱讀

深度強(qiáng)化學(xué)習(xí)、多智體強(qiáng)化學(xué)習(xí)以及博弈論,是DeepMind戰(zhàn)勝職業(yè)星際II玩家的智能體AlphaStar的重要技術(shù)。倫敦帝國(guó)大學(xué)和NYU研究人員則從進(jìn)化計(jì)算的角度指出,AlphaStar使用的競(jìng)爭(zhēng)協(xié)同進(jìn)化算法策略被遠(yuǎn)遠(yuǎn)低估。

DeepMind首次戰(zhàn)勝星際II職業(yè)玩家的AI——AlphaStar,正如新智元?jiǎng)?chuàng)始人兼CEO楊靜女士在《新智元2019年寄語(yǔ)》中所說(shuō)的那樣,引爆機(jī)器智能無(wú)限可能。

AlphaStar是一項(xiàng)壯舉,是建立在DeepMind及其他研究人員多年的研究和工程基礎(chǔ)之上,尤其是深度強(qiáng)化學(xué)習(xí)(DRL)、多智體強(qiáng)化學(xué)習(xí)(MARL)和博弈論。

雖然在官方博文中,DeepMind也提到了進(jìn)化算法(Evolutionary Algorithm, EA),但這顯然并非其重點(diǎn)。不過(guò),倫敦帝國(guó)學(xué)院的Kai Arulkumaran等人,反過(guò)來(lái)從進(jìn)化算法的角度來(lái)看AlphaStar,希望對(duì)深度強(qiáng)化學(xué)習(xí)領(lǐng)域和進(jìn)化計(jì)算的研究者都帶來(lái)啟發(fā)。

進(jìn)化計(jì)算和深度學(xué)習(xí)并非對(duì)立的兩個(gè)陣營(yíng)。

事實(shí)上,Arulkumaran等人最新在Arxiv上貼出的論文《從進(jìn)化計(jì)算角度看AlphaStar》(AlphaStar: An Evolutionary Computation Perspective),也確實(shí)提出了很多新的問(wèn)題。

例如,在DeepMind提出的快速調(diào)參算法PBT中,用Baldwinian進(jìn)化算法代替拉馬克(Lamarckian)進(jìn)化,是否能得到元學(xué)習(xí)星際II智能體?

Arulkumaran本人也在Twitter表示,這篇文章是對(duì)一系列概念的高級(jí)概括,還需要進(jìn)一步探索,他們?cè)趯?xiě)作時(shí)有意識(shí)地省略了演化計(jì)算和博弈論之間重疊的部分。

同時(shí),他也指出,不能認(rèn)為AlphaStar僅僅只是一個(gè)演化算法,AlphaStar的混合性質(zhì)有些類(lèi)似于AlphaGo atm?!癉eepMind官方博文顯示了從IL階段MMR的提升,這一點(diǎn)看起來(lái)很重要,但哪些細(xì)節(jié)是最重要的,我們目前還不知道?!?/p>

以下是新智元對(duì)文章的編譯。

從進(jìn)化計(jì)算角度看AlphaStar

2019年1月,DeepMind向世界展示了AlphaStar——第一個(gè)在星際爭(zhēng)霸II游戲中擊敗職業(yè)玩家的人工智能(AI)系統(tǒng),它代表了人工智能技術(shù)進(jìn)步的一個(gè)里程碑。

AlphaStar涉及人工智能研究的許多領(lǐng)域,包括深度學(xué)習(xí),強(qiáng)化學(xué)習(xí),博弈論和進(jìn)化計(jì)算等(EC)。

在本文中,我們主要通過(guò)進(jìn)化計(jì)算的角度來(lái)分析AlphaStar,為審視該系統(tǒng)提供一個(gè)新的視角,并將其與AI領(lǐng)域的許多概念關(guān)聯(lián)起來(lái)。我們重點(diǎn)介紹其中一些最有趣的方面:拉馬克進(jìn)化、協(xié)同競(jìng)爭(zhēng)進(jìn)化和質(zhì)量多樣性。希望通過(guò)本文,在更廣泛的進(jìn)化計(jì)算社區(qū)與新誕生的這個(gè)重要的AI系統(tǒng)之間架起一座橋梁。

在1997年”深藍(lán)“擊敗國(guó)際象棋世界冠軍后,人工智能與人類(lèi)博弈的下一個(gè)重要里程碑是出現(xiàn)在2016年,圍棋世界冠軍李世乭被AlphaGo擊敗。國(guó)際象棋和圍棋此前都被認(rèn)為是AI取得進(jìn)展最困難的領(lǐng)域,可以說(shuō),與之相比難度相當(dāng)?shù)目简?yàn)之一就是擊敗星際爭(zhēng)霸(SC)游戲中的大師級(jí)玩家。

星際爭(zhēng)霸是一款即時(shí)戰(zhàn)略(RTS)游戲?!缎请H1》及其續(xù)作《星際II》都具有幾個(gè)特點(diǎn),使得它甚至比圍棋的挑戰(zhàn)更大。比如只能觀(guān)察到戰(zhàn)場(chǎng)的一部分、沒(méi)有單一的主導(dǎo)策略、復(fù)雜的游戲規(guī)則、快速建模的難度更大,動(dòng)作空間極大,且復(fù)雜多變等??梢哉f(shuō),想實(shí)現(xiàn)征服《星際爭(zhēng)霸》的目標(biāo),一點(diǎn)也不比圍棋上的突破來(lái)得容易。

想實(shí)現(xiàn)征服《星際爭(zhēng)霸》的目標(biāo),一點(diǎn)也不比圍棋上的突破來(lái)得容易。圖片來(lái)源:Jesus Rodriguez, The Science Behind AlphaStar

最近,DeepMind推出的AlphaStar向著實(shí)現(xiàn)這個(gè)目標(biāo)邁出了重要一步,AlphaStar是一個(gè)基于神經(jīng)網(wǎng)絡(luò)的AI系統(tǒng),在2018年12月?lián)魯×藢?zhuān)業(yè)的SC II玩家。

該系統(tǒng)與其前身AlphaGo一樣,最初使用模仿學(xué)習(xí)來(lái)模仿人類(lèi)的游戲行為,然后通過(guò)強(qiáng)化學(xué)習(xí)(RL)和自我對(duì)弈的組合方式進(jìn)行改進(jìn)。

算法在這里發(fā)生了分歧,因?yàn)锳lphaStar利用基于人口的訓(xùn)練(PBT)來(lái)明確地保持一群相互訓(xùn)練的智能體。這部分訓(xùn)練過(guò)程建立在多智能體強(qiáng)化學(xué)習(xí)和博弈論視角之上,但人口的概念是進(jìn)化計(jì)算的核心,因此我們也可以通過(guò)這個(gè)視角來(lái)考察AlphaStar。

AlphaStar使用了拉馬克進(jìn)化算法

目前,訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù)的最流行的方法是反向傳播(BP)。但是,有許多方法可以調(diào)整其超參數(shù),包括進(jìn)化算法。

其中一種方法是使用模因算法(MA),這個(gè)算法中,進(jìn)化作為外部?jī)?yōu)化算法運(yùn)行,并且各個(gè)解決方案可以通過(guò)內(nèi)環(huán)中的其他方式(例如反向傳播)來(lái)進(jìn)行優(yōu)化。在這種特定情況下,模因算法可以將進(jìn)化算法的探索和全局搜索屬性與反向傳播算法的高效本地搜索的優(yōu)勢(shì)結(jié)合起來(lái)。

AlphaStar的基本架構(gòu)。來(lái)源:DeepMind

在AlphaStar中,用于訓(xùn)練智能體的基于人口的訓(xùn)練策略(PBT)是使用拉馬克進(jìn)化(LE)的模因算法:在內(nèi)環(huán)中,使用反向傳播連續(xù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),而在外環(huán)中,使用幾種選擇方法中的一種來(lái)選擇網(wǎng)絡(luò)(比如淘汰制錦標(biāo)賽選擇),用勝者的參數(shù)覆蓋敗者的參數(shù),敗者也會(huì)收到勝者超參數(shù)的“變異”副本。

PBT策略最初是通過(guò)一系列監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)任務(wù)展示的,調(diào)整和提升神經(jīng)網(wǎng)絡(luò)的性能。對(duì)于具有高度非平穩(wěn)損耗表面的問(wèn)題,例如深度強(qiáng)化學(xué)習(xí)問(wèn)題,這種策略可能是最有效的,因?yàn)樗梢栽谶\(yùn)行過(guò)程中改變超參數(shù)。

AlphaStar vs MaNa,神經(jīng)網(wǎng)絡(luò)如何將觀(guān)察到的結(jié)果轉(zhuǎn)換為行動(dòng)。來(lái)源:DeepMind

由于單個(gè)網(wǎng)絡(luò)可能需要高達(dá)數(shù)G的內(nèi)存,或需要訓(xùn)練長(zhǎng)達(dá)幾個(gè)小時(shí),因此可擴(kuò)展性是PBT的關(guān)鍵。因此,PBT既是異步的,又是分布式的。與使用靜態(tài)超參數(shù)運(yùn)行許多實(shí)驗(yàn)不同,使用相同數(shù)量的硬件,利用PBT只需要很少的開(kāi)銷(xiāo)——外部循環(huán)可以重用內(nèi)部循環(huán)的解決方案進(jìn)行評(píng)估,而且數(shù)據(jù)通信量也比較低。如果考慮非平穩(wěn)超參數(shù)因素和對(duì)較弱解決方案的優(yōu)先搶占的影響,PBT方案能夠節(jié)省的成本更多。

這些要求的另一個(gè)結(jié)果是PBT是穩(wěn)定狀態(tài),這一點(diǎn)與分代進(jìn)化算法不同。由于對(duì)異步進(jìn)化算法和拉馬克進(jìn)化的自然適應(yīng)性,穩(wěn)態(tài)進(jìn)化算法可以允許各個(gè)解決方案的優(yōu)化和評(píng)估不間斷地進(jìn)行,從而實(shí)現(xiàn)資源效率最大化。

最適合的解決方案能夠存活更長(zhǎng)時(shí)間,自然地提供了一種精英主義/名人堂模式,但并非最優(yōu)的前代方案也可以保留下來(lái),保持解決方案多樣性。

自我對(duì)弈也體現(xiàn)了競(jìng)爭(zhēng)性協(xié)同進(jìn)化(CCEA)

在對(duì)AlphaStar一類(lèi)游戲智能體進(jìn)行優(yōu)化時(shí),智能體可以使用自對(duì)戰(zhàn)來(lái)提升水平。

競(jìng)爭(zhēng)性協(xié)同進(jìn)化算法(CCEA)可以被視為自我對(duì)弈的超集(superset),并非只保留當(dāng)前解決方案及其前身,而是保持和評(píng)估整個(gè)解決方案的群體。

與自我對(duì)弈一樣,CEA形成了一個(gè)自然的教學(xué)過(guò)程,但也提供了額外的穩(wěn)健性,因?yàn)楫a(chǎn)生的解決方案是基于各種其他解決方案進(jìn)行評(píng)估的。

AlphaStar的訓(xùn)練過(guò)程。來(lái)源:DeepMind

通過(guò)在CCEA環(huán)境中使用PBT策略,利用基于反向傳播的深度強(qiáng)化學(xué)習(xí),再加上進(jìn)化版的獎(jiǎng)勵(lì)函數(shù),能夠訓(xùn)練智能體從像素級(jí)入手,開(kāi)始學(xué)習(xí)玩第一人稱(chēng)游戲。

CEA的設(shè)計(jì)包括很多方面,這種方法的特征可能導(dǎo)致許多潛在的變體。

AlphaStar還可以歸為質(zhì)量多樣性算法

在《星際爭(zhēng)霸》中,沒(méi)有所謂“最好的策略”。因此,最終的AlphaStar智能體由納什分布的人口組成,構(gòu)成一組互補(bǔ)的、最不可利用的策略。

為了改進(jìn)訓(xùn)練方式,增加最終解決方案的多樣性,明確鼓勵(lì)多樣性是有意義的。

AlphaStar也可以歸為質(zhì)量多樣性(QD)算法。尤其是,智能體可以具有游戲特定的屬性,例如構(gòu)建特定類(lèi)型的額外單位,以及擊敗某個(gè)其他智能體的標(biāo)準(zhǔn),擊敗一組其他智能體的標(biāo)準(zhǔn),甚至是上述這些要素的混合。

此外,這些特定標(biāo)準(zhǔn)也可以在線(xiàn)調(diào)整,這對(duì)于QD算法而言屬于全新的特性——除了POET以外。這使得智能體可以做到更多的事情:可以從人類(lèi)數(shù)據(jù)中提取有用的信息,甚至進(jìn)行無(wú)監(jiān)督學(xué)習(xí)。

考慮到一系列不同的策略,下一步將自然而然地推斷哪種策略可能最適合對(duì)付給定的對(duì)手,從而實(shí)現(xiàn)在線(xiàn)適應(yīng)。

討論

雖然AlphaStar是一個(gè)復(fù)雜的系統(tǒng),涉及人工智能研究的許多領(lǐng)域,但我們認(rèn)為,迄今為止被低估的一點(diǎn)是競(jìng)爭(zhēng)性協(xié)同進(jìn)化算法策略。它結(jié)合了拉馬克進(jìn)化,共同進(jìn)化和質(zhì)量多樣性,達(dá)到了驚人的效果。

希望本文能夠讓進(jìn)化計(jì)算和深度強(qiáng)化學(xué)習(xí)社區(qū)更好地欣賞和構(gòu)建這個(gè)重要的AI系統(tǒng)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    152

    瀏覽量

    10588
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5504

    瀏覽量

    121229
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    130

    瀏覽量

    10877

原文標(biāo)題:DeepMind首個(gè)戰(zhàn)勝星際2職業(yè)玩家的AI為何無(wú)敵?新視角揭秘AI里程碑

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    未來(lái)的AI 深挖谷歌 DeepMind 和它背后的技術(shù)

    的游戲可以提高戰(zhàn)略思維能力。通過(guò)學(xué)習(xí)如何玩這些復(fù)雜的游戲,機(jī)器將獲得思考和采取戰(zhàn)略行動(dòng)的能力。DeepMind的通用學(xué)習(xí)算法讓機(jī)器可以通過(guò)游戲化學(xué)習(xí),嘗試獲得類(lèi)人的智力和行為。盡管該公司對(duì)實(shí)現(xiàn)人類(lèi)智能
    發(fā)表于 08-26 12:04

    利用PLD實(shí)現(xiàn)智能演化計(jì)算

    演化計(jì)算是一種通過(guò)模擬的自然界的生物演化過(guò)程搜索最優(yōu)解的方法,主要包括遺傳算法(CA)、演化策略(ES)、演化規(guī)劃(EP)等。
    發(fā)表于 06-26 17:43 ?24次下載

    演化硬件概念分析

    演化硬件實(shí)際上是一種特殊硬件,它可以像生物一樣具有自適應(yīng)、自組織、自修復(fù)特性,從而可以根據(jù)使用環(huán)境的變化而改變自身的結(jié)構(gòu)以適應(yīng)其生存環(huán)境。從狹義上來(lái)講,演化
    發(fā)表于 08-04 11:24 ?1029次閱讀

    基于編碼轉(zhuǎn)換的離散演化算法設(shè)計(jì)與應(yīng)用

    為了利用演化算法求解離散域的組合優(yōu)化問(wèn)題,借鑒遺傳算法(GA)、二進(jìn)制粒子群優(yōu)化(BPSO)和二進(jìn)制差分演化(HBDE)中的映射方法,提出
    發(fā)表于 12-14 16:12 ?0次下載

    AlphaStar橫空出世 星際爭(zhēng)霸2人類(lèi)1:10輸給AI

     剛剛,我們見(jiàn)證了 AI 與人類(lèi) PK 的又一次重大進(jìn)展!DeepMind 北京時(shí)間 1 月 25 日凌晨 2:00 起公布了其錄制的 AI 在《星際爭(zhēng)霸 2》中與
    的頭像 發(fā)表于 01-25 09:40 ?3344次閱讀

    一天等于兩百年?人工智能星際爭(zhēng)霸2向人類(lèi)發(fā)出挑戰(zhàn)

    今天,一則《Deepmind公布星際爭(zhēng)霸2結(jié)果:AlphaStar以10:1戰(zhàn)勝職業(yè)高手》一文,引發(fā)熱議,但是其實(shí)在兩年前,AI就與人類(lèi)選手進(jìn)行過(guò)
    的頭像 發(fā)表于 07-29 18:21 ?876次閱讀

    揭秘星際2人工智能AlphaStarDeepMind科學(xué)家回應(yīng)一切

    神經(jīng)網(wǎng)絡(luò)本身大概要花 50 毫秒來(lái)計(jì)算一個(gè)動(dòng)作,但這只是游戲事件發(fā)生和 AlphaStar 對(duì)該事件做出反應(yīng)期間的部分處理過(guò)程。首先,AlphaStar 平均每 250 毫秒才觀(guān)察一次游戲,這是因?yàn)樯窠?jīng)網(wǎng)絡(luò)除了本身的動(dòng)作(有時(shí)被稱(chēng)為時(shí)間抽象動(dòng)作)之外,還會(huì)等待一些其他的游
    的頭像 發(fā)表于 01-28 15:39 ?3479次閱讀

    為什么DeepMind的科學(xué)家們對(duì)星際爭(zhēng)霸如此癡迷

    星際在全球玩家眾多,是最流行的一款實(shí)時(shí)策略游戲之一,而 DeepMind 匯聚了全球最頂尖的人工智能科學(xué)家,似乎兩者出現(xiàn)在同一個(gè)場(chǎng)景里有些違和。大眾刻板印象里面,科學(xué)家一般都與實(shí)驗(yàn)科研為伍,怎么會(huì)對(duì)玩
    的頭像 發(fā)表于 01-29 10:43 ?4027次閱讀

    DeepMind在倫敦向世界展示了他們的最新成果——星際爭(zhēng)霸2人工智能AlphaStar

    星際爭(zhēng)霸中包含神族、人族、蟲(chóng)族三種選擇,不同種族有不同的作戰(zhàn)單位、生產(chǎn)機(jī)制和科技機(jī)制,因而各個(gè)種族間存在戰(zhàn)術(shù)制衡。為了降低任務(wù)訓(xùn)練所需時(shí)間,并避免不同種族間客觀(guān)存在的不平衡性,AlphaStar以神族對(duì)陣神族為特定訓(xùn)練場(chǎng)景,固定使用天梯地圖-CatalystLE為訓(xùn)練和對(duì)
    的頭像 發(fā)表于 01-30 15:56 ?5433次閱讀

    AIoT在今年將會(huì)迎來(lái)的一波熱潮

    AI近些年非?;馃?,尤其借由DeepMind推出的AlphaGo在圍棋領(lǐng)域戰(zhàn)勝人類(lèi)一事,一度將其推上“神壇”。時(shí)隔兩年,DeepMind攜全新AlphaStar再次驚艷亮相,最近在策略類(lèi)游戲“
    發(fā)表于 02-12 16:29 ?1588次閱讀

    企業(yè)怎樣利用人工智能術(shù)取得跨越式發(fā)展?人工智能領(lǐng)域還有哪些創(chuàng)業(yè)機(jī)會(huì)

    谷歌旗下公司DeepMind開(kāi)發(fā)的全新AI程序AlphaStar,在《星際爭(zhēng)霸2》人機(jī)大戰(zhàn)中,以10:1的戰(zhàn)績(jī),全面擊潰了人類(lèi)職業(yè)高手。這不禁讓人想到2017年AlphaGo以3場(chǎng)全勝
    的頭像 發(fā)表于 03-18 10:02 ?2716次閱讀

    人工智能告訴我們未來(lái)需要更深入地探索人類(lèi)創(chuàng)造力的本質(zhì)

    人工智能這幾年發(fā)展勢(shì)頭迅猛,先是阿爾法狗擊敗了世界頂級(jí)圍棋高手李世石和柯潔。這一次人工智能算法再一次擊敗人類(lèi)專(zhuān)家,稱(chēng)霸了另一款電腦游戲,谷歌DeepMindAlphaStar系統(tǒng)在《
    發(fā)表于 03-31 11:00 ?809次閱讀

    DeepMind阿爾法被打臉,華為論文指出多項(xiàng)問(wèn)題

    DeepMind 在強(qiáng)化學(xué)習(xí)領(lǐng)域具有很高的學(xué)術(shù)聲譽(yù)。從 AlphaGo 到 AlphaStar,每一項(xiàng)研究都取得了舉世矚目的成就,但就在最近,DeepMind 的一篇有關(guān)多智能
    的頭像 發(fā)表于 11-22 16:26 ?3231次閱讀
    <b class='flag-5'>DeepMind</b>阿爾法被打臉,華為論文指出多項(xiàng)問(wèn)題

    人工智能實(shí)際上并不像聽(tīng)起來(lái)那樣可怕

    好消息是,人工智能實(shí)際上并不像聽(tīng)起來(lái)那樣可怕,并且通過(guò)獲得LinkedIn最高度評(píng)價(jià)的技能之一,既可以負(fù)擔(dān)得起又易于理解的指導(dǎo)有可能對(duì)領(lǐng)域進(jìn)行透徹了解。
    的頭像 發(fā)表于 07-22 14:44 ?1681次閱讀

    語(yǔ)言模型做先驗(yàn),統(tǒng)一強(qiáng)化學(xué)習(xí)智能,DeepMind選擇走這條通用AI之路

    智能的開(kāi)發(fā)中,強(qiáng)化學(xué)習(xí)與大語(yǔ)言模型、視覺(jué)語(yǔ)言模型等基礎(chǔ)模型的進(jìn)一步融合究竟能擦出怎樣的火花?谷歌 DeepMind 給了我們新的答案。 一直以來(lái),DeepMind 引領(lǐng)了強(qiáng)化學(xué)習(xí)(
    的頭像 發(fā)表于 07-24 16:55 ?539次閱讀
    語(yǔ)言模型做先驗(yàn),統(tǒng)一強(qiáng)化學(xué)習(xí)<b class='flag-5'>智能</b><b class='flag-5'>體</b>,<b class='flag-5'>DeepMind</b>選擇走這條通用AI之路