0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AlphaStar 稱霸星際爭霸2!AI史詩級勝利,DeepMind再度碾壓人類

DPVg_AI_era ? 來源:lq ? 2019-01-26 09:06 ? 次閱讀

DeepMind潛心兩年打造的AlphaStar,以5比0的比分,決定性地擊敗了世界上最強大的職業(yè)星際爭霸玩家之一,攻破了人類難度最高的游戲,又一個里程碑!

AlphaStar橫空出世!

剛剛,DeepMind在推出AlphaGo之后,又把打造兩年的AlphaStar推上歷史的舞臺,創(chuàng)造出第一個打敗星際爭霸2頂級職業(yè)選手的AI。

DeepMind昨晚放出在12月19日舉行的一系列測試比賽錄像,AlphaStar在與隊友達里奧·溫施(Dario " TLO " Wunsch)進行了一場成功的基準測試后,以5比0的比分,決定性地擊敗了世界上最強大的職業(yè)星際爭霸玩家之一。

雖然在像雅達利、馬里奧、雷神爭霸3競技場和Dota 2這樣的電子游戲中,AI已經(jīng)取得了巨大的成功,但直到現(xiàn)在,AI仍在努力應對星際爭霸的復雜性。

《星際爭霸2》由暴雪娛樂公司出品,故事背景設定在一個虛構的科幻世界中,具有豐富的多層次游戲玩法,旨在挑戰(zhàn)人類的智力。因為高度復雜性和策略性,這款游戲成為史上規(guī)模最大、最成功的游戲之一,玩家在電子競技比賽中競爭了20多年。

這次AI擊敗頂級選手,真正攻破了人類智力的最后陣地!

10段錄像見證AlphaStar大殺特殺,人類玩家現(xiàn)場絕地反擊

賽前,DeepMind召集了兩位人類職業(yè)玩家選手,每位選手分別與AlphaStar對戰(zhàn)五回合。而后在現(xiàn)場,人類與AI進行了最終的博弈,挽回了顏面,我們一起來看下。

這次終極1V1人機大戰(zhàn)采用的地圖是Catalyst LE,游戲版本為4.6.2。

與AlphaStar對戰(zhàn)的人類選手,分別是TLO和MaNa。

TLO是現(xiàn)役職業(yè)選手德國人Dario Wünsch,所屬荷蘭戰(zhàn)隊 “Team Liquid”。他在2018年WSC Circuit中排名44。由于經(jīng)常全力在Twitch直播,TLO在玩家中很出名。

另一位對戰(zhàn)選手,是今年25歲的現(xiàn)役職業(yè)玩家“MaNa”,有波蘭王牌之稱。MaNa慣用神族,在剛剛結束的IEM科隆站比賽中,MaNa在小組賽中以2:1戰(zhàn)勝了韓國選手Jaedong。

MaNa目前在2018 WSC Circuit上排名第13,他在去年WCS Austin中獲得亞軍,在2015年WCS第三季中也獲得亞軍。更早一些,MaNa得過Dreamhack2012夏季賽的冠軍。

接下來是10場比賽錄像中的精彩片段,以及現(xiàn)場的精彩打斗。

Round 1:7分鐘,AlphaStar終結人類頂級玩家

開局,人類玩家率先派出農民一位,在AI家里來回探路。

2分50秒,人類玩家派出2名高階圣堂開始了第一波騷擾,AlphaStar派出部分壯丁對其進行狙擊剿滅。

隨后人類玩家騷擾不斷,與此同時AI也開始了反擊,派出了一名追蹤者攻擊主基地。

而不知不覺中,AI已經(jīng)攢出了6個追蹤者,并大步邁向人類玩家分基地。

雙方開始了第一波GANK,但LTO派出家里老少還算抵御住了這次攻擊。然而,AI的補給兵已經(jīng)到達戰(zhàn)場。LTO已是無力回天。

Round2:人類玩家侵略性強,AI步步為營,精準計算

依舊,雙方前期小打小鬧不斷,6分鐘左右,AlphaStar率先派出10名追蹤者對LTO進行攻擊,人類玩家防御成功。

在此期間,AlphaStar做出了減少氣體采集的策略。

而后,人類玩家和AI都各自發(fā)展經(jīng)濟、制造兵種,在全場小范圍迂回作戰(zhàn)。

在14分時,致勝點出現(xiàn)了,看似人類玩家追打AI,卻突然被其它兩路而來的兵源切割,慘遭毒手。

人類玩家無力回天,AlphaStar再次取勝。

Round3-5:AlphaStar兵臨城下,各路圍剿,簡直虐待

接下來播放的視頻是另一位頂級人類玩家MaNa的戰(zhàn)況。

來看下錄播視頻中的三段完虐場景吧。

遛著農民絞殺。

快推一波流。

三路圍剿,兵敗峽谷。

現(xiàn)場較量:人類玩家絕地大反擊,將AI趕盡殺絕

可能是因為AI太厲害,人類需要證明自己的實力。最后,職業(yè)玩家MaNa在現(xiàn)場與AlphaStar實時較量了一場。

與錄像相比,此次人類選手采取了較為保守的策略,選擇發(fā)展經(jīng)濟、“招兵買馬”;而AlphaStar則率先發(fā)起挑釁。

而且迂迂回回不斷進行騷擾,基地周邊以及探路的農民也遭到射殺。

在保守打法的基礎上,MaNa已經(jīng)積攢了一定的兵力,在發(fā)現(xiàn)AlphaStar兵力出巢瞬間,立即發(fā)動兵力進行攻擊。同時也不忘建分基地,雙線操作,十分穩(wěn)。

而此時,AlphaStar的兵力并沒有及時趕回救場,MaNa借此機會直接拆掉了分基地。

面對剛剛趕回的AlphaStar兵團,MaNa一頓操作猛如虎,直接擊退其兵力,而后果斷直搗黃龍。

最終,人類絕地反擊,戰(zhàn)勝了AI。

來自全球的看官瞬間不淡定了,評論區(qū)已然炸成鍋——為人類的獲勝歡呼雀躍——這或許也是為了挽回人類最后的顏面。

AlphaStar煉成記:每個代理使用16個TPU

AlphaStar的行為是由一個深層神經(jīng)網(wǎng)絡生成的,該網(wǎng)絡接收來自原始游戲interface的輸入數(shù)據(jù)(單元及其屬性的列表),并輸出構成游戲內操作的指令序列。更具體地說,神經(jīng)網(wǎng)絡體系結構對單元應用一個轉換器軀干,結合一個LSTM核心、一個帶有指針網(wǎng)絡的自回歸策略頭和一個集中的值基線。

DeepMind相信,這種先進的模型將有助于解決機器學習研究中涉及長期序列建模和大輸出空間(如翻譯、語言建模和視覺表示)的許多其他挑戰(zhàn)。

AlphaStar還使用了一種新的多智能體學習算法。神經(jīng)網(wǎng)絡最初是由暴雪公司發(fā)布的匿名人類游戲中的監(jiān)督學習訓練出來的。這使得AlphaStar能夠通過模仿StarCraft ladder上玩家使用的基本微觀和宏觀策略。這個最初的代理在95%的游戲中擊敗了內置的“精英”AI關卡——即人類玩家的黃金關卡。

然后用它們來建立一個多主體強化學習過程。一個連續(xù)的聯(lián)盟被創(chuàng)造出來,聯(lián)盟的代理——競爭者——相互之間玩游戲,就像人類在StarCraft ladder玩游戲一樣。

新的競爭者通過從現(xiàn)有競爭者中進行分支,動態(tài)地添加到聯(lián)盟中;然后每個代理從與其他競爭對手的游戲中學習。這種新的訓練形式將基于人群的強化學習理念進一步發(fā)揚光大,創(chuàng)造了一個不斷探索《星際爭霸》游戲玩法巨大戰(zhàn)略空間的過程,同時確保每個競爭對手都能在最強的戰(zhàn)略面前表現(xiàn)出色,并且不會忘記如何擊敗較早的戰(zhàn)略。

隨著聯(lián)賽的發(fā)展和新的競爭對手的產(chǎn)生,新的對抗策略出現(xiàn)了,能夠擊敗以前的策略。當一些新的競爭者執(zhí)行一個僅僅是對以前的策略的改進的策略時,另一些人發(fā)現(xiàn)了包含全新構建訂單、單元組合和微觀管理計劃的全新策略。

例如,在AlphaStar聯(lián)盟早期,一些“俗套”的策略,如使用光子炮或黑暗圣堂武士進行非??焖俚目旃?,受到了玩家的青睞。隨著訓練的進行,這些冒險的策略被拋棄了,產(chǎn)生了其他的策略:例如,通過過度擴張擁有更多工人的基地來獲得經(jīng)濟實力,或者犧牲兩個神諭來破壞對手的工人和經(jīng)濟。這一過程類似于《星際爭霸》發(fā)行多年以來玩家發(fā)現(xiàn)新策略并能夠擊敗之前所青睞的方法的過程。

為了鼓勵聯(lián)盟的多樣性,每個代理都有自己的學習目標:例如,這個代理的目標應該是打敗哪些競爭對手,以及影響代理如何發(fā)揮的任何其他內部動機。一個代理可能有打敗某個特定競爭對手的目標,而另一個代理可能必須打敗整個競爭對手分布,但這是通過構建更多特定的游戲單元來實現(xiàn)的。這些學習目標在培訓過程中得到了調整。

最好的結果可能是通過手工制作系統(tǒng)的主要元素,對游戲規(guī)則施加重大限制,賦予系統(tǒng)超人的能力,或者在簡化的地圖上進行游戲。即使有了這些改進,也沒有一個系統(tǒng)能與職業(yè)選手的技術相媲美。相比之下,AlphaStar在星際爭霸2中玩的是完整的游戲,它使用的深度神經(jīng)網(wǎng)絡是通過監(jiān)督學習和強化學習直接從原始游戲數(shù)據(jù)中訓練出來的。

為了訓練AlphaStar,DeepMind使用谷歌的v3版本的TPU構建了一個高度可伸縮的分布式訓練設置,它支持大量代理從數(shù)以千計的星際爭霸2并行實例中學習。AlphaStar聯(lián)賽運行了14天,每個代理使用16個TPU。在訓練期間,每個代理都經(jīng)歷了長達200年的星際爭霸實時游戲。最終的AlphaStar代理由聯(lián)盟的Nash分布組成——換句話說,已經(jīng)發(fā)現(xiàn)的最有效的策略組合——運行在單個桌面GPU上。

另外,這項工作的論文也即將發(fā)布。

AlphaStar實戰(zhàn)技巧分析

講完AlphaStar的訓練過程,再來分析下實戰(zhàn)過程。

像TLO和MaNa這樣的職業(yè)星際爭霸玩家,平均每分鐘可以做數(shù)百個操作(APM)。這遠遠少于大多數(shù)現(xiàn)有的機器人,它們獨立控制每個單元,并始終保持數(shù)千甚至數(shù)萬個APM。

在與TLO和MaNa的比賽中,AlphaStar的平均APM約為280,遠低于職業(yè)選手,不過它的動作可能更精確。

造成APM較低的部分原因是AlphaStar使用回放開始訓練,因此模仿了人類玩游戲的方式。此外,AlphaStar的反應在觀察和行動之間的平均延遲350ms。

在與TLO和MaNa對弈過程中,AlphaStar通過原始界面與星際爭霸2引擎連接,這就意味著它可以直接在地圖上觀察自己的屬性和對手的可見單位,而無需移動相機。

相比之下,人類玩家必須明確管理“注意力經(jīng)濟(economy of attention)”,并決定在哪里對焦相機。

然而,對AlphaStar游戲的分析表明,它管理著一種隱性的注意力焦點。平均而言,智能體每分鐘“切換內容”約30次,類似于MaNa或TLO的操作。

此外,在比賽之后,DeepMind還開發(fā)了AlphaStar的第二個版本。和人類玩家一樣,這個版本的AlphaStar會選擇何時何地移動攝像頭,它的感知僅限于屏幕上的信息,行動地點也僅限于它的可視區(qū)域。

DeepMind訓練了兩個新智能體,一個使用raw interface,另一名必須學會控制攝像頭,以對抗AlphaStar League。

每個智能體最初都是通過從人類數(shù)據(jù)中進行監(jiān)督學習,然后按照強化學習過程進行訓練的。使用攝像頭界面的AlphaStar版本幾乎和raw interface一樣強大,在DeepMind內部排行榜上超過了7000 MMR。

在表演賽中,MaNa用camera interface擊敗了AlphaStar的一個原型版本,這個interface只訓練了7天。

這些結果表明,AlphaStar對MaNa和TLO的成功實際上是由于優(yōu)越的宏觀和微觀戰(zhàn)略決策,而不是快速的操作、更快的反應時間或raw interface。

人類挑戰(zhàn)20年,AI攻下星際爭霸有五大困難

游戲規(guī)則規(guī)定,玩家必須選擇三種不同的外星“種族”中的一種——蟲族、神族或人族,它們都有各自的特點和能力(盡管職業(yè)玩家往往只專注于一種種族)。每個玩家從一些工作單元開始,收集基本資源來構建更多的單元和結構并創(chuàng)造新技術,這些反過來又允許玩家獲取其他資源,建立更復雜的基地和結構,并開發(fā)新的能力,可以用來智勝對手。

游戲的難度在于,要想取勝,玩家必須在宏觀經(jīng)濟的宏觀管理和微觀個體的控制之間保持謹慎的平衡。

平衡短期和長期目標以及適應意外情況的需要對往往脆弱和缺乏靈活性的系統(tǒng)提出了巨大的挑戰(zhàn)。要想解決這個問題,需要突破AI研究的幾個挑戰(zhàn),包括:

游戲理論:《星際爭霸》是一款像剪刀石頭布一樣是沒有最佳策略的游戲。因此,AI過程需要不斷探索和拓展戰(zhàn)略知識的前沿。

不完全信息:不像國際象棋或圍棋那樣,玩家什么信息都能看到,關鍵信息對星際玩家是隱藏的,必須通過“偵察”來主動發(fā)現(xiàn)。

長期規(guī)劃:像許多現(xiàn)實世界中的問題一樣,因果關系不是瞬間產(chǎn)生的。游戲也可以在任何地方花費一個小時完成,這意味著在游戲早期采取的行動可能在很長一段時間內都不會有回報。

實時:不像傳統(tǒng)的棋類游戲,玩家在接下來的動作之間交替,《星際爭霸》玩家必須隨著游戲時間的推移不斷地執(zhí)行動作。

大型活動空間:數(shù)百個不同的單元和建筑必須同時被實時控制,從而形成一個可能性組合空間。

正是由于這些巨大的挑戰(zhàn),星際爭霸已經(jīng)成為人工智能研究的“大挑戰(zhàn)”。自2009年發(fā)布BroodWar API以來,《星際爭霸》和《星際爭霸2》的競賽一直在進行,包括AIIDE星際爭霸AI競賽、CIG星際爭霸競賽、學生星際爭霸AI競賽和《星際爭霸2》AI階梯賽。

DeepMind在2016年和2017年與暴雪合作發(fā)布了一套名為PySC2的開源工具,其中包括有史以來最大的一組匿名游戲回放。

現(xiàn)在,經(jīng)過兩年的打造,繼AlphaGo之后,DeepMind剛剛問世的AlphaStar已經(jīng)取得了飛速進展。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31364

    瀏覽量

    269767
  • DeepMind
    +關注

    關注

    0

    文章

    131

    瀏覽量

    10901

原文標題:AlphaStar 稱霸星際爭霸2!AI史詩級勝利,DeepMind再度碾壓人類

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    谷歌加速AI部門整合:AI Studio團隊并入DeepMind

    近日,谷歌正緊鑼密鼓地推進其人工智能(AI)部門的整合工作。據(jù)谷歌AI Studio主管Logan Kilpatrick在領英頁面上的透露,谷歌已將AI Studio團隊整體轉移至DeepMi
    的頭像 發(fā)表于 01-13 14:40 ?192次閱讀

    【書籍評測活動NO.55】AI Agent應用與項目實戰(zhàn)

    的一些日程預測性地調整了今天的工作安排。 在近日的Agent OpenDay上,智譜AI展示了在AI Agent(智能體)方面最新成果,發(fā)布了用AI替代人類執(zhí)行任務的三款智能體,分別是
    發(fā)表于 01-13 11:04

    AI跑分超8000,天璣9400憑實力碾壓一眾旗艦芯片

    蘇黎世AI Benchmark榜單冠軍,以稱霸行業(yè)的AI性能,加速智能手機的智能體化進程。 AI Benchmark自2018年推出以來,一直是業(yè)界評估
    的頭像 發(fā)表于 01-10 12:40 ?101次閱讀
    <b class='flag-5'>AI</b>跑分超8000,天璣9400憑實力<b class='flag-5'>碾壓</b>一眾旗艦芯片

    馬斯克預言:AI將全面超越人類智力

    近日,科技巨頭馬斯克作出了一個關于人工智能(AI)的大膽預測。他斷言,AI的發(fā)展速度將超乎人類的想象,并將在不久的將來全面超越人類的智力。 馬斯克在X平臺上明確表示,
    的頭像 發(fā)表于 12-28 14:23 ?254次閱讀

    AI智能體逼真模擬人類行為

    近日,據(jù)外媒最新報道,斯坦福大學、華盛頓大學與Google DeepMind的科研團隊攜手合作,成功開發(fā)出一種能夠高度逼真模擬人類行為的AI智能體。 該智能體的構建得益于研究團隊將詳細的訪談記錄
    的頭像 發(fā)表于 11-26 10:24 ?417次閱讀

    特斯拉史詩計劃再啟:馬斯克揭秘Master Plan 4

    在科技界的浩瀚星空中,有一位創(chuàng)新者總是以他獨特的視角和前瞻性的思維引領著整個行業(yè)的發(fā)展。他就是特斯拉的創(chuàng)始人兼CEO——埃隆·馬斯克。今日,馬斯克再次掀起科技界的風暴,宣布他正在研究特斯拉的“秘密宏圖”第四篇章,并稱之為“史詩”計劃。
    的頭像 發(fā)表于 06-18 14:50 ?1422次閱讀

    智謀紀 AI+Multi LED 打開人類健康新寶藏

    技術。 智謀紀創(chuàng)始人&CEO朱東亮先生受邀出席論壇,帶來題為《AI+ Multi LED,打開人類健康新寶藏》的專題演講。 演講精彩瞬間回顧:AI+ Multi LED,智謀紀AI照明
    的頭像 發(fā)表于 06-17 12:23 ?357次閱讀
    智謀紀 <b class='flag-5'>AI</b>+Multi LED 打開<b class='flag-5'>人類</b>健康新寶藏

    谷歌DeepMind推出新一代藥物研發(fā)AI模型AlphaFold 3

    谷歌DeepMind公司近日重磅推出了一款名為AlphaFold 3的全新藥物研發(fā)AI模型,這一創(chuàng)新技術將為科學家們提供前所未有的幫助,使他們能更精確地理解疾病機制,進而開發(fā)出更高效的治療藥物。
    的頭像 發(fā)表于 05-10 09:35 ?414次閱讀

    海辰儲能再度獲評BNEF Tier 1全球一儲能廠商

    近日,彭博新能源財經(jīng)(BNEF)發(fā)布了《BNEF Energy Storage Tier 1 List 2Q 2024》,憑借專業(yè)可靠的產(chǎn)品品質、優(yōu)異的全球項目表現(xiàn)以及強大的可融資實力,海辰儲能再度成功躋身全球一儲能廠商之列。
    的頭像 發(fā)表于 04-17 14:23 ?633次閱讀

    微軟和OpenAI計劃投資1000億美元建造“星際之門”AI超級計算機

    微軟和OpenAI計劃投資1000億美元建造“星際之門”AI超級計算機這一消息屬實。
    的頭像 發(fā)表于 04-11 10:14 ?594次閱讀

    谷歌DeepMind推出SIMI通用AI智能體

    近日,谷歌的DeepMind團隊發(fā)布了其最新研究成果——SIMI(Scalable Instructable Multiworld Agent),這是一個通用人工智能智能體,能夠在多種3D虛擬環(huán)境
    的頭像 發(fā)表于 03-18 11:39 ?1013次閱讀

    谷歌DeepMind推新AI模型Genie,能生成2D游戲平臺

    據(jù)報道,谷歌公司的DeepMind團隊近期發(fā)布了AI模型Genie,此模型擁有多達110億個參數(shù),能夠依據(jù)用戶提供的圖片及提示詞創(chuàng)建出相當完整的2D游戲場景。
    的頭像 發(fā)表于 02-27 14:53 ?821次閱讀

    富士通發(fā)布最新的人工智能(AI)戰(zhàn)略,聚焦深化人類AI之間的協(xié)作

    富士通株式會社(以下簡稱“富士通”)發(fā)布了最新的集團人工智能(AI)戰(zhàn)略,聚焦深化人類AI之間的協(xié)作,并提出了將AI作為“可信賴的助手”這一愿景,為提升
    的頭像 發(fā)表于 02-21 17:09 ?873次閱讀
    富士通發(fā)布最新的人工智能(<b class='flag-5'>AI</b>)戰(zhàn)略,聚焦深化<b class='flag-5'>人類</b>與<b class='flag-5'>AI</b>之間的協(xié)作

    谷歌DeepMind資深AI研究員創(chuàng)辦AI Agent創(chuàng)企

    近日,剛從谷歌DeepMind離職的資深AI研究員Ioannis Antonoglou宣布創(chuàng)辦了一家名為“AI Agent”的創(chuàng)企。Ioannis Antonoglou常駐倫敦,此前曾擔任谷歌
    的頭像 發(fā)表于 02-04 10:02 ?823次閱讀

    谷歌DeepMind科學家欲建AI初創(chuàng)公司

    據(jù)知情人士透露,谷歌人工智能部門DeepMind的兩名杰出科學家Laurent Sifre和Karl Tuyls正在與投資者商討在巴黎成立一家新的人工智能初創(chuàng)公司的事宜。
    的頭像 發(fā)表于 01-22 14:41 ?524次閱讀