0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind部署自學(xué)AI 攻陷FPS“雷神之錘”

電子工程師 ? 來源:yxw ? 2019-06-02 10:25 ? 次閱讀

AI攻占了國際象棋和圍棋高地之后,DeepMind在第一人稱射擊游戲(FPS)上也有了新進(jìn)展。

1997年5月“深藍(lán)”擊敗國際象棋世界冠軍卡斯巴羅夫,有玩家在慶幸,我不下象棋,只下圍棋。

2017年5月AlphaGo打敗圍棋世界冠軍柯潔,有玩家慶幸,還好,我不下棋。

2018年6月,OpenAI 人工智能在dota2 5V5模式中以4000分水平擊敗人類玩家,依舊有玩家慶幸,我不玩RPG(角色扮演)對(duì)戰(zhàn),我只玩FPS(第一人稱射擊)。

如今,F(xiàn)PS也被AI攻陷。

近日,DeepMind的研究人員在本周的《科學(xué)》雜志上發(fā)表了一篇論文,描述描述了一個(gè)完全無監(jiān)督的自學(xué)程序,不僅能夠?qū)W習(xí)如何玩“ Quake III Arena ”(雷神之錘III競(jìng)技場(chǎng),一款第一人稱射擊游戲),還能設(shè)計(jì)出勝過人類團(tuán)隊(duì)的新穎戰(zhàn)略。

國際象棋和圍棋最初是用來模擬戰(zhàn)爭游戲的,但卻對(duì)戰(zhàn)爭復(fù)盤的不好。因?yàn)檫@類游戲通常涉及一個(gè)或多個(gè)隊(duì)友和敵人。而且一個(gè)優(yōu)秀的戰(zhàn)爭游戲必然是三維展開。

DeepMind使用的AI叫For The Win(FTW),本質(zhì)是用卷積神經(jīng)網(wǎng)絡(luò)直接通過屏幕上進(jìn)行訓(xùn)練,屏幕數(shù)據(jù)會(huì)被傳遞到兩個(gè)LSTM網(wǎng)絡(luò)或能夠?qū)W習(xí)長期依賴性的網(wǎng)絡(luò)。這兩個(gè)LSTM一個(gè)是在快速時(shí)間尺度上,另一個(gè)是在慢速時(shí)間尺度上運(yùn)行。它們通過目標(biāo)耦合,能夠?qū)τ螒蚴澜邕M(jìn)行預(yù)測(cè)并通過模擬游戲控制器輸出動(dòng)作。

FTW總共訓(xùn)練了30個(gè)游戲角色,為他們提供了一系列隊(duì)友和對(duì)手,并隨機(jī)選擇游戲階段,以防止他們通過記憶慣性做出選擇。每個(gè)角色都明確自己的獎(jiǎng)勵(lì)信號(hào),從而擁有自己獨(dú)特的目標(biāo)(比如奪取旗幟)。此外,他們利用雙層流程(two-tier process)來優(yōu)化內(nèi)部獎(jiǎng)勵(lì),通過這些獎(jiǎng)勵(lì)加強(qiáng)學(xué)習(xí),來制定最重要的游戲策略。每個(gè)角色都單獨(dú)玩了大約450,000場(chǎng)比賽,相當(dāng)于擁有大約四年的經(jīng)驗(yàn)。

訓(xùn)練過后的FTW在地圖,團(tuán)隊(duì)名單和團(tuán)隊(duì)規(guī)模選擇方面都可以作出有利的選擇。他們學(xué)習(xí)了類似人類的行為,例如跟隨隊(duì)友,在對(duì)手的基地露營,以及在一波攻擊中捍衛(wèi)他們自己的基地。而隨著訓(xùn)練的進(jìn)行,他們還學(xué)會(huì)避免人類玩家的一些弱點(diǎn),比如過于關(guān)注隊(duì)友的行為。

在一場(chǎng)有40名人類參加的比賽中,人類和AI在比賽中隨機(jī)匹配(對(duì)手或隊(duì)友),結(jié)果,AI大勝人類玩家,F(xiàn)TW的Elo評(píng)級(jí)(相當(dāng)于獲勝的概率)為1600,而最好的人類玩家也只有1300,人類玩家平均評(píng)級(jí)為1050。

倫敦全球大學(xué)計(jì)算機(jī)科學(xué)教授,DeepMind科學(xué)家Thore Graepel表示,這項(xiàng)工作顯示了多智能體培訓(xùn)(multiagent)推動(dòng)人工智能發(fā)展的潛力。這是人機(jī)交互和系統(tǒng)相互補(bǔ)充或協(xié)同工作的研究的一個(gè)重大進(jìn)步。

AI訓(xùn)練思路

游戲分為兩個(gè)陣營,兩方的大本營在游戲時(shí)候開會(huì)隨機(jī)設(shè)置在地圖的兩端。游戲中的玩家可以在游戲地圖中“瞎逛”,借助地圖中的建筑物、數(shù)目以及其他物品與玩家進(jìn)行互動(dòng)。

在游戲中,如果一方用激光擊敗了其他玩家,被擊中的玩家丟掉旗幟,回大本營重生。

DeepMind采用的AI玩家會(huì)和人類有同樣的視角,AI不知道其他玩家的信息,包括位置、狀態(tài)等。另外這款游戲比其他棋牌游戲更能接近真實(shí)的戰(zhàn)場(chǎng)。AI玩家從零開始,用強(qiáng)化學(xué)習(xí)訓(xùn)練,在游戲的開始,真實(shí)加入戰(zhàn)場(chǎng)的AI角色是隨機(jī)選擇的,這會(huì)使得智能體的行為更能接近最初設(shè)置的策略目標(biāo)。

每個(gè)智能體都能夠?yàn)樽约褐贫ú呗?,這意味著不同角色會(huì)采用不同的戰(zhàn)術(shù),即不同AI玩家有不同的專攻方向。

當(dāng)然,也會(huì)有限制,即在每1000次迭代后,系統(tǒng)會(huì)比較策略并評(píng)估整個(gè)團(tuán)隊(duì)在模仿與學(xué)習(xí)能力。如果一個(gè)智能體的獲勝機(jī)會(huì)低于另一個(gè)智能體的70%,那么較弱的智能體會(huì)復(fù)制較強(qiáng)的智能體。同時(shí),強(qiáng)化學(xué)習(xí)還要求AI通過其他指標(biāo)的對(duì)比進(jìn)行調(diào)整。

AI玩家在一開始就像一張白紙,研究人員給他們的目標(biāo)不僅是游戲結(jié)束時(shí)候的得分,還要關(guān)注在游戲前期的得分。研究人員指出,如果獎(jiǎng)勵(lì)機(jī)制只和游戲結(jié)果有關(guān)(輸/贏/平局),顯然限制太少,導(dǎo)致學(xué)習(xí)效果非常不好,所以需要考慮動(dòng)態(tài)的獎(jiǎng)勵(lì)機(jī)制,即根據(jù)游戲的點(diǎn)數(shù)流來變動(dòng)。

當(dāng)初始位置是隨機(jī)生成時(shí),AI通常擊敗人類玩家。即使人類已經(jīng)練習(xí)了12個(gè)小時(shí),他們?nèi)匀荒軌蜈A得25%的比賽,平局6%,剩下的是負(fù)。

然而,當(dāng)兩名職業(yè)游戲測(cè)試人員得到一張?zhí)貏e復(fù)雜的地圖時(shí),這張地圖AI并沒有見過。重新讓AI在這張地圖上訓(xùn)練的話,只需要6個(gè)小時(shí)的訓(xùn)練就能脫穎而出。

這一結(jié)果沒有在論文說明,而是在向新聞界提供的一份補(bǔ)充文件中作了說明。

目前人們?nèi)匀豢梢栽诮?jīng)過精心設(shè)計(jì)的定位戰(zhàn)中擊敗AI,因?yàn)楝F(xiàn)實(shí)生活很少提供這樣復(fù)盤重來的機(jī)會(huì),畢竟淮海戰(zhàn)役只能打一次!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31364

    瀏覽量

    269767
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    10901

原文標(biāo)題:Science最新:DeepMind部署自學(xué)AI,攻陷FPS“雷神之錘”

文章出處:【微信號(hào):smartman163,微信公眾號(hào):網(wǎng)易智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    谷歌加速AI部門整合:AI Studio團(tuán)隊(duì)并入DeepMind

    近日,谷歌正緊鑼密鼓地推進(jìn)其人工智能(AI)部門的整合工作。據(jù)谷歌AI Studio主管Logan Kilpatrick在領(lǐng)英頁面上的透露,谷歌已將AI Studio團(tuán)隊(duì)整體轉(zhuǎn)移至DeepMi
    的頭像 發(fā)表于 01-13 14:40 ?192次閱讀

    企業(yè)AI模型部署攻略

    當(dāng)下,越來越多的企業(yè)開始探索和實(shí)施AI模型,以提升業(yè)務(wù)效率和競(jìng)爭力。然而,AI模型的部署并非易事,需要企業(yè)在多個(gè)層面進(jìn)行細(xì)致的規(guī)劃和準(zhǔn)備。下面,AI部落小編為企業(yè)提供一份
    的頭像 發(fā)表于 12-23 10:31 ?154次閱讀

    AI模型部署和管理的關(guān)系

    AI模型的部署與管理是AI項(xiàng)目成功的兩大支柱,它們之間既相互獨(dú)立又緊密相連,共同推動(dòng)著AI技術(shù)從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。
    的頭像 發(fā)表于 11-21 10:02 ?190次閱讀

    如何在STM32f4系列開發(fā)板上部署STM32Cube.AI,

    已下載STM32Cube.AI擴(kuò)展包,但是無法使用,感覺像是沒有部署AI模型,我是想要通過攝像頭拍照,上傳圖像后,經(jīng)過開發(fā)板處理器進(jìn)行AI模型處理識(shí)別過后,告訴我識(shí)別結(jié)果,顯示在TFL
    發(fā)表于 11-18 09:39

    華迅光通AI計(jì)算加速800G光模塊部署

    ,對(duì)人工智能服務(wù)器集群的需求也急劇上升。隨著數(shù)據(jù)中心基礎(chǔ)設(shè)施的不斷擴(kuò)大,光模塊的使用量呈指數(shù)級(jí)增長。目前,200G和400G光模塊已經(jīng)大規(guī)模部署,800G光模塊已經(jīng)開始進(jìn)入量產(chǎn)和引進(jìn)階段。 為什么需要
    發(fā)表于 11-13 10:16

    企業(yè)AI模型部署怎么做

    AI模型部署作為這一轉(zhuǎn)型過程中的關(guān)鍵環(huán)節(jié),其成功實(shí)施對(duì)于企業(yè)的長遠(yuǎn)發(fā)展至關(guān)重要。在此,AI部落小編為您介紹企業(yè)AI模型部署的步驟以及注意事項(xiàng)
    的頭像 發(fā)表于 11-04 10:15 ?173次閱讀

    Arm推出GitHub平臺(tái)AI工具,簡化開發(fā)者AI應(yīng)用開發(fā)部署流程

    專為 GitHub Copilot 設(shè)計(jì)的 Arm 擴(kuò)展程序,可加速從云到邊緣側(cè)基于 Arm 平臺(tái)的開發(fā)。 Arm 原生運(yùn)行器為部署云原生、Windows on Arm 以及云到邊緣側(cè)的 AI
    的頭像 發(fā)表于 10-31 18:51 ?2708次閱讀

    Meta發(fā)布新AI模型自學(xué)評(píng)估器,探索減少人類參與度

    近日,F(xiàn)acebook母公司Meta正式發(fā)布了一批來自其研究部門的新AI模型,其中一款名為「自學(xué)評(píng)估器」(Self-Taught Evaluator)的模型尤為引人注目。該模型或?qū)⒊蔀榻档?b class='flag-5'>AI開發(fā)
    的頭像 發(fā)表于 10-23 13:44 ?320次閱讀

    谷歌DeepMind推出新一代藥物研發(fā)AI模型AlphaFold 3

    谷歌DeepMind公司近日重磅推出了一款名為AlphaFold 3的全新藥物研發(fā)AI模型,這一創(chuàng)新技術(shù)將為科學(xué)家們提供前所未有的幫助,使他們能更精確地理解疾病機(jī)制,進(jìn)而開發(fā)出更高效的治療藥物。
    的頭像 發(fā)表于 05-10 09:35 ?414次閱讀

    NVIDIA推出OVX存儲(chǔ)驗(yàn)證計(jì)劃,加速AI部署

    隨著生成式AI的廣泛應(yīng)用,全球企業(yè)正積極尋求提升業(yè)務(wù)創(chuàng)新的途徑。然而,復(fù)雜且耗時(shí)的IT基礎(chǔ)設(shè)施部署成為阻礙企業(yè)快速啟動(dòng)AI工作負(fù)載的一大難題。
    的頭像 發(fā)表于 03-27 10:27 ?424次閱讀

    120fps能否成為VR眩暈的“關(guān)鍵門檻”?

    據(jù)悉,研究共招募了32位參與者,平均年齡介于18至51歲,男女比例均衡。每位參與者分別體驗(yàn)了60fps、90fps、120fps及180fps Hz的畫面刷新率。實(shí)驗(yàn)數(shù)據(jù)表明,120
    的頭像 發(fā)表于 03-18 15:36 ?836次閱讀

    使用CUBEAI部署tflite模型到STM32F0中,模型創(chuàng)建失敗怎么解決?

    看到CUBE_AI已經(jīng)支持到STM32F0系列芯片,就想拿來入門嵌入式AI。 生成的模型很小,是可以部署到F0上的,但是一直無法創(chuàng)建成功。 查閱CUBE AI文檔說在調(diào)用create
    發(fā)表于 03-15 08:10

    谷歌DeepMind推新AI模型Genie,能生成2D游戲平臺(tái)

    據(jù)報(bào)道,谷歌公司的DeepMind團(tuán)隊(duì)近期發(fā)布了AI模型Genie,此模型擁有多達(dá)110億個(gè)參數(shù),能夠依據(jù)用戶提供的圖片及提示詞創(chuàng)建出相當(dāng)完整的2D游戲場(chǎng)景。
    的頭像 發(fā)表于 02-27 14:53 ?821次閱讀

    谷歌DeepMind資深AI研究員創(chuàng)辦AI Agent創(chuàng)企

    近日,剛從谷歌DeepMind離職的資深AI研究員Ioannis Antonoglou宣布創(chuàng)辦了一家名為“AI Agent”的創(chuàng)企。Ioannis Antonoglou常駐倫敦,此前曾擔(dān)任谷歌
    的頭像 發(fā)表于 02-04 10:02 ?823次閱讀

    谷歌DeepMind科學(xué)家欲建AI初創(chuàng)公司

    據(jù)知情人士透露,谷歌人工智能部門DeepMind的兩名杰出科學(xué)家Laurent Sifre和Karl Tuyls正在與投資者商討在巴黎成立一家新的人工智能初創(chuàng)公司的事宜。
    的頭像 發(fā)表于 01-22 14:41 ?524次閱讀