AlphaStar橫空出世 星際爭霸2人類1:10輸給AI
剛剛,我們見證了 AI 與人類 PK 的又一次重大進(jìn)展!DeepMind 北京時(shí)間 1 月 25 日凌晨 2:00 起公布了其錄制的 AI 在《星際爭霸 2》中與2位職業(yè)選手的比賽過程:AlphaStar 5:0 戰(zhàn)勝職業(yè)選手TLO ,5:0戰(zhàn)勝 2018 年 WSC 奧斯汀站亞軍 MaNa 。與兩位人類對手的比賽相隔約兩周,AI 自學(xué)成才,經(jīng)歷了從與TLO 對戰(zhàn)時(shí)的菜鳥級別,進(jìn)化到完美操作的過程,尤其是與MaNa 的對戰(zhàn),已經(jīng)初步顯示了可以超越人類極限的能力。
這次的演示也是 DeepMind 的星際爭霸 2 AI AlphaStar 的首次公開亮相。除了此前比賽錄像的展示外,AlphaStar 還和MaNa 現(xiàn)場來了一局,不過,這局AlphaStar 輸給了人類選手MaNa 。
我們不難看出,盡管其神經(jīng)網(wǎng)絡(luò)已經(jīng)趨于長期優(yōu)化,但似乎仍然會在一定程度上陷入局部最優(yōu),被人類發(fā)現(xiàn)固定模式,落入圈套,而且從 5 個(gè)小叮當(dāng)抱團(tuán),到純追獵部隊(duì),都顯示出它對游戲兵種的理解尚不到位,如果最后一局它可以像人類一樣直接派出鳳凰防守棱鏡,或許它將繼續(xù)憑借超強(qiáng)的微操一波推平 MaNa。
比賽回放過程中,主持人問到 DeepMind 科學(xué)家,平時(shí)如何訓(xùn)練 AlphaStar,DeepMind 科學(xué)家 Oriol Vinyals、David Silver 表示,首先是模仿學(xué)習(xí),團(tuán)隊(duì)從許多選手那里獲得了很多比賽回放資料,并試圖讓 AI 通過觀察一個(gè)人所處的環(huán)境,盡可能地模仿某個(gè)特定的動(dòng)作,從而理解星際爭霸的基本知識。這其中所使用到的訓(xùn)練資料不但包括專業(yè)選手,也包括業(yè)余選手。這是 AlphaStar 成型的第一步。
之后,團(tuán)隊(duì)會使用一個(gè)稱為“Alpha League”的方法。在這個(gè)方法中,Alpha League 的第一個(gè)競爭對手就是從人類數(shù)據(jù)中訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò),然后進(jìn)行一次又一次的迭代,產(chǎn)生新的 agent 和分支,用以壯大“Alpha League”。
圖 | Alpha League 示意圖
然后,這些 agent 通過強(qiáng)化學(xué)習(xí)過程與“Alpha League”中的其他競爭對手進(jìn)行比賽,以便盡可能有效地?fù)魯∷羞@些不同的策略,此外,還可以通過調(diào)整它們的個(gè)人學(xué)習(xí)目標(biāo)來鼓勵(lì)競爭對手朝著特定方式演進(jìn),比如說旨在獲得特定的獎(jiǎng)勵(lì)。
最后,團(tuán)隊(duì)在“Alpha League”中選擇了最不容易被利用的 agent,稱之為“the nash of League”,這就是 TLO 所對戰(zhàn)的5個(gè)。
近幾年,除了 DeepMind 以外,已經(jīng)有越來越多的人工智能公司或者研究機(jī)構(gòu)投身到開發(fā)游戲類AI的浪潮中,例如 OpenAI 和騰訊的 AI lab 等等。
歸根結(jié)底,這些團(tuán)隊(duì)對游戲AI的熱情,恐怕都源于打造通用型人工智能的這一終極目標(biāo):游戲AI的研發(fā)將會進(jìn)一步拓寬人類對于AI能力的認(rèn)知,這樣的研究最終將探索的問題 AI 能否能夠通過游戲規(guī)則進(jìn)行自主學(xué)習(xí),達(dá)到更高層次的智能乃至通用型人工智能。例如,在游戲AI的設(shè)計(jì)中,增強(qiáng)學(xué)習(xí)算法的改進(jìn)將至關(guān)重要。增強(qiáng)學(xué)習(xí)是一種能夠提高 AI 能力的核心算法,它讓 AI 能夠解決具有不確定性動(dòng)態(tài)的決策問題(比如游戲 AI,智能投資,自動(dòng)駕駛,個(gè)性化醫(yī)療),這些問題往往也更加復(fù)雜。
而 DeepMind 團(tuán)隊(duì)的成果已經(jīng)為此帶來了一絲曙光——AlphaGo Zero在短時(shí)間內(nèi)精通圍棋、象棋、國際象棋三種棋類游戲,已有棋類通用AI雛形。棋類游戲之后,最值得期待的進(jìn)展,就是各家開發(fā)的AI在即時(shí)戰(zhàn)略類 RTS 游戲或多人在線競技類 MOBA 游戲上的表現(xiàn)了。此前,騰訊 AI Lab 負(fù)責(zé)人之一姚星就介紹過,在游戲AI的研究上,騰訊 AI Lab 已從圍棋 AI “絕藝”等單個(gè) AI 的完全信息博弈類游戲,轉(zhuǎn)移到規(guī)則不明確、任務(wù)多樣化、情況復(fù)雜的游戲類型,如星際爭霸和 Dota2 等復(fù)雜的即時(shí)戰(zhàn)略類 RTS 游戲或多人在線競技類 MOBA 游戲。
在剛剛過去的2018年,OpenAI 開發(fā)出的 AI OpenAI Five 就是針對 Dota2 開發(fā)的AI,但是它與人類 PK 的過程可謂充滿戲劇性。2018 年 8 月初,OpenAI Five 戰(zhàn)勝一支人類玩家高水平業(yè)余隊(duì)伍(天梯 4000 分左右),然而,到了 8 月底 OpenAI Five 被兩支專業(yè)隊(duì)伍打敗, AI 提前結(jié)束了其在本屆 DOTA 2 國際頂尖賽事 TI 8 的旅程。回顧那次失敗的過程,其實(shí)OpenAI 的系統(tǒng)仍然無法全面理解 DOTA 復(fù)雜的游戲系統(tǒng)和規(guī)則。
現(xiàn)在,DeepMind 的星際爭霸2 AI 已經(jīng)以其超強(qiáng)實(shí)力打響游戲 AI 2019 年第一戰(zhàn),接下來還有哪些游戲AI將橫空出世呢?各大游戲AI又將如何邁向通用人工智能,讓我們拭目以待。
-
AI
+關(guān)注
關(guān)注
87文章
31022瀏覽量
269360 -
人工智能
+關(guān)注
關(guān)注
1792文章
47372瀏覽量
238856
發(fā)布評論請先 登錄
相關(guān)推薦
評論