0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind開發(fā)了PopArt,解決了不同游戲獎(jiǎng)勵(lì)機(jī)制規(guī)范化的問題

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-09-16 10:04 ? 次閱讀

多任務(wù)學(xué)習(xí)一直是AI研究的長(zhǎng)期目標(biāo)。DeepMind開發(fā)了PopArt,解決了不同游戲獎(jiǎng)勵(lì)機(jī)制規(guī)范化的問題,它可以玩57款雅達(dá)利電子游戲,并且在所有57款游戲中達(dá)到高于人類中間水平的表現(xiàn)。

多任務(wù)學(xué)習(xí)——讓單個(gè)agent學(xué)習(xí)如何解決許多不同的任務(wù)——這是AI研究的一個(gè)長(zhǎng)期目標(biāo)。

近年來,多任務(wù)學(xué)習(xí)領(lǐng)域已經(jīng)取得許多卓越的進(jìn)步,例如DQN這樣的智能體能夠使用相同的算法來學(xué)習(xí)玩多個(gè)游戲,包括雅達(dá)利經(jīng)典的 “突出重圍”(Breakout)和 “乒乓球”(Pong)游戲。

這些算法為每項(xiàng)任務(wù)訓(xùn)練一個(gè)專家智能體(expert agents)。隨著AI研究向更復(fù)雜的現(xiàn)實(shí)世界領(lǐng)域發(fā)展,構(gòu)建一個(gè)單一的強(qiáng)智能體(general agent)來學(xué)習(xí)執(zhí)行多重任務(wù)將變得至關(guān)重要,而不是構(gòu)建多個(gè)專家智能體。然而,到目前為止,這已經(jīng)被證明是一項(xiàng)重大挑戰(zhàn)。

原因之一是,強(qiáng)化學(xué)習(xí)智能體用來判斷成功的獎(jiǎng)勵(lì)方案經(jīng)常存在差異,導(dǎo)致他們把注意力集中在獎(jiǎng)勵(lì)更高的任務(wù)上。例如,在雅達(dá)利游戲“Pong”中,agent每一步會(huì)獲得-1、0或+1的獎(jiǎng)勵(lì):

Pong游戲中,兩道豎杠代表球拍,一個(gè)小光點(diǎn)代表球在屏幕上蹦蹦跳跳,由人操縱按紐控制反彈,打不中就失去一分

相比之下,在“吃豆人”游戲中,agent每走一步就可獲得幾百、幾千的分?jǐn)?shù)。即使個(gè)體獎(jiǎng)勵(lì)的規(guī)模相似,但隨著agent變得更好,獎(jiǎng)勵(lì)的頻率會(huì)隨著時(shí)間推移而變化。

這意味著agent傾向于關(guān)注那些有很高分?jǐn)?shù)的任務(wù),導(dǎo)致在某些任務(wù)上表現(xiàn)更好,而在其他任務(wù)上表現(xiàn)更差。

為了解決這些問題,DeepMind開發(fā)了PopArt,它可以調(diào)整每一款游戲的分?jǐn)?shù)等級(jí),這樣不管游戲原本的獎(jiǎng)勵(lì)等級(jí)如何規(guī)定,AI智能體都會(huì)判斷游戲具有同等的學(xué)習(xí)價(jià)值。

PopArt:在保持輸出完好的同時(shí),自適應(yīng)地重新調(diào)整目標(biāo)(PreservingOutputsPrecisely whileAdaptivelyRescalingTargets)。

DeepMind將PopArt規(guī)范化應(yīng)用到最先進(jìn)的強(qiáng)化學(xué)習(xí)智能體上,從而得到一個(gè)單一的智能體,它可以玩57款雅達(dá)利電子游戲,并且在所有57款游戲中達(dá)到高于人類中間水平的表現(xiàn)。

PopArt:規(guī)范化獎(jiǎng)勵(lì),不影響目標(biāo)

一般來說,深度學(xué)習(xí)依賴于不斷更新的神經(jīng)網(wǎng)絡(luò)的權(quán)重,使神經(jīng)網(wǎng)絡(luò)的輸出更接近期望的目標(biāo)輸出。當(dāng)神經(jīng)網(wǎng)絡(luò)被用于深度強(qiáng)化學(xué)習(xí)時(shí)也是如此。PopArt通過估計(jì)這些目標(biāo)的平均值和傳播范圍(比如游戲中的得分)來工作。然后,它使用這些數(shù)據(jù)對(duì)目標(biāo)進(jìn)行規(guī)范化,再利用它們來更新網(wǎng)絡(luò)的權(quán)重。

使用規(guī)范化的目標(biāo)可以使學(xué)習(xí)更加穩(wěn)定和強(qiáng)大,以適應(yīng)規(guī)模和轉(zhuǎn)換的變化。為了獲得準(zhǔn)確的估計(jì)——例如對(duì)未來的預(yù)期分?jǐn)?shù)的估計(jì)——網(wǎng)絡(luò)的輸出可以通過反轉(zhuǎn)規(guī)范化過程來重新調(diào)整到真實(shí)的目標(biāo)范圍。如果直接這樣做,每次更新統(tǒng)計(jì)數(shù)據(jù)都會(huì)改變所有未規(guī)范化的輸出,包括那些已經(jīng)非常好的輸出。我們通過向相反的方向更新網(wǎng)絡(luò)來防止這種情況的發(fā)生。這意味著我們可以在保持以前學(xué)習(xí)過的輸出完好的同時(shí),獲得大規(guī)模更新的好處。

傳統(tǒng)上,研究人員通過在強(qiáng)化學(xué)習(xí)算法中使用獎(jiǎng)勵(lì)修剪(rewardclipping)來克服不同獎(jiǎng)勵(lì)尺度的問題。這種方法將很大或很小的分?jǐn)?shù)修剪為1或-1分的得分,大致使預(yù)期獎(jiǎng)勵(lì)規(guī)范化。雖然這使學(xué)習(xí)變得更容易,但是它也改變了agent的目標(biāo)。

例如,在“吃豆人小姐”(Ms. Pac-Man)游戲中,吃豆人的目標(biāo)是收集豆子,吃到每個(gè)豆子獲得10分,吃到鬼魂獲得200到1600分。通過修剪獎(jiǎng)勵(lì),agent吃一個(gè)豆子和吃一個(gè)鬼魂得到的獎(jiǎng)勵(lì)沒有明顯的區(qū)別,導(dǎo)致agent只吃豆子,從不去追逐鬼魂。如下面的視頻所示:

當(dāng)我們用PopArt的自適應(yīng)規(guī)范化來代替reward clipping,結(jié)果導(dǎo)致了智能體完全不同的行為。它會(huì)追逐鬼魂,并且獲得了更高的分?jǐn)?shù)。

使用PopArt進(jìn)行多任務(wù)深度強(qiáng)化學(xué)習(xí)

我們將PopArt應(yīng)用于Importance-weighted Actor-Learner Architecture(IMPALA),這是DeepMind最流行的深度強(qiáng)化學(xué)習(xí)智能體之一。在實(shí)驗(yàn)中,與沒有使用PopArt的baseline agent相比,PopArt大大提高了agent的表現(xiàn)。無論是修剪了獎(jiǎng)勵(lì)還是沒有修剪獎(jiǎng)勵(lì),PopArt智能體在游戲中的中位數(shù)得分都高于人類中位數(shù)得分。

這遠(yuǎn)遠(yuǎn)高于使用reward clipping的baseline,而沒有使用reward clipping的baseline根本無法達(dá)到有意義的表現(xiàn),因?yàn)樗鼰o法有效地處理不同游戲之間的獎(jiǎng)勵(lì)尺度的巨大變化。

57款A(yù)tari游戲的標(biāo)準(zhǔn)化表現(xiàn)中位數(shù)。每一行對(duì)應(yīng)于單個(gè)智能體的中位數(shù)表現(xiàn),該智能體被訓(xùn)練來使用相同的神經(jīng)網(wǎng)絡(luò)來玩所有這些游戲。實(shí)線表示使用 reward clipping的表現(xiàn),虛線表示沒有使用 reward clipping的表現(xiàn)。

這是我們第一次在使用單一智能體的這種多任務(wù)環(huán)境中看到超過人類的表現(xiàn),這表明PopArt可以為如何在無需手動(dòng)修剪或調(diào)整的情況下平衡各種目標(biāo)的開放式研究問題提供一些解決方案。當(dāng)我們將AI應(yīng)用于更復(fù)雜的多模態(tài)領(lǐng)域時(shí),AI在學(xué)習(xí)過程中自動(dòng)適應(yīng)規(guī)范化的能力變得非常重要,因?yàn)樵谶@些領(lǐng)域中,AI智能體必須學(xué)會(huì)權(quán)衡各種不同的獎(jiǎng)勵(lì)和不同的目標(biāo)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4777

    瀏覽量

    100970
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    162

    瀏覽量

    10599
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    10893

原文標(biāo)題:強(qiáng)化學(xué)習(xí)重大突破:DeepMind用一個(gè)AI在57個(gè)游戲中全面超越人類

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    工器具規(guī)范化使用

      電力企業(yè)安全工器具規(guī)范化操作指導(dǎo)系統(tǒng) 一、系統(tǒng)概述    對(duì)電力生產(chǎn)人員來說,了解各種安全工器具的性能和用途,正確掌握它們
    發(fā)表于 11-18 14:02

    貼片知識(shí)課堂十一,PCB設(shè)計(jì)規(guī)范化第第三節(jié)

    本帖最后由 eehome 于 2013-1-5 10:04 編輯 麥斯艾姆(massembly)貼片知識(shí)課堂十一,PCB設(shè)計(jì)規(guī)范化第三節(jié)麥斯艾姆(massembly)貼片知識(shí)課堂繼續(xù)上次的話
    發(fā)表于 10-31 14:16

    關(guān)于發(fā)帖標(biāo)題規(guī)范化管理公告

    關(guān)于發(fā)帖標(biāo)題規(guī)范化管理公告由于論壇管理事物繁重,很多時(shí)候由不得我們幾個(gè)管理員的眼睛和手指去處理,為了大家的問題能夠更好,更直接的讓各位大大們過目,讓大家的問題都能得到解決,管理員團(tuán)隊(duì)特出發(fā)帖標(biāo)題規(guī)范
    發(fā)表于 11-04 17:11

    未來的AI 深挖谷歌 DeepMind 和它背后的技術(shù)

    學(xué)習(xí)從非結(jié)構(gòu)數(shù)據(jù)中學(xué)習(xí)來編寫分析報(bào)告或執(zhí)行無人監(jiān)督的任務(wù)。所有這些發(fā)展都為不同的公司發(fā)揮作用并證明他們的價(jià)值奠定基礎(chǔ)。因此,很多像DeepMind這樣的公司成立了,來繼續(xù)發(fā)展這一領(lǐng)域。你對(duì)其有
    發(fā)表于 08-26 12:04

    代碼規(guī)范化如何學(xué)習(xí),單片機(jī)也要求規(guī)范化嗎?

    代碼規(guī)范化如何學(xué)習(xí),單片機(jī)也要求規(guī)范化么?
    發(fā)表于 10-12 07:19

    PCB繪制規(guī)范及審核要點(diǎn)(免費(fèi))

    PCB相關(guān)的內(nèi)容,以及繪制規(guī)范及審核要點(diǎn),需仔細(xì)閱讀
    發(fā)表于 01-22 14:35 ?0次下載

    一種創(chuàng)新的無監(jiān)督文本規(guī)范化系統(tǒng)

    推特文本中包含著大量的非標(biāo)準(zhǔn)詞,這些非標(biāo)準(zhǔn)詞是由人們有意或無意而創(chuàng)造的。對(duì)很多自然語(yǔ)言處理的任務(wù)而言,預(yù)先對(duì)推特文本進(jìn)行規(guī)范化處理是很有必要的。針對(duì)已有的規(guī)范化系統(tǒng)性能較差的問題,提出一種創(chuàng)新的無
    發(fā)表于 12-15 14:12 ?0次下載
    一種創(chuàng)新的無監(jiān)督文本<b class='flag-5'>規(guī)范化</b>系統(tǒng)

    數(shù)據(jù)庫(kù)-關(guān)系規(guī)范化的詳細(xì)資料介紹,為什么要對(duì)進(jìn)行關(guān)系的規(guī)范化

    對(duì)關(guān)系的規(guī)范化是改造關(guān)系模式過程,首先,根據(jù)一組不同級(jí)別的范式判定關(guān)系的規(guī)范化程度,確定不正常的數(shù)據(jù)依賴關(guān)系,通過模式分解將一個(gè)低一級(jí)范式的關(guān)系模式,轉(zhuǎn)換為若干個(gè)高一級(jí)的范式的關(guān)系模式的集合,消除其中不合適的數(shù)據(jù)依賴,以解決插入異常、刪除異常、更新異常和數(shù)據(jù)冗余問題。
    發(fā)表于 09-05 14:26 ?5次下載
    數(shù)據(jù)庫(kù)-關(guān)系<b class='flag-5'>規(guī)范化</b>的詳細(xì)資料介紹,為什么要對(duì)進(jìn)行關(guān)系的<b class='flag-5'>規(guī)范化</b>?

    淺析FPGA規(guī)范化的重要性

    設(shè)計(jì)規(guī)范化與自由創(chuàng)作之間沒有任何矛盾。它只是制約那些可能出錯(cuò)或者低效的行為,令設(shè)計(jì)思路更加明朗、設(shè)計(jì)效率得到提高、設(shè)計(jì)質(zhì)量充分保證。
    的頭像 發(fā)表于 10-09 11:10 ?3246次閱讀

    原理圖繪制規(guī)范電子版資料下載

    規(guī)范旨在建立一個(gè)技術(shù)支持和資源共享的基礎(chǔ)平臺(tái),統(tǒng)一企業(yè)內(nèi)部的技術(shù)開發(fā)行為,促進(jìn)企業(yè)技術(shù)文檔的規(guī)范化和標(biāo)準(zhǔn),逐步使技術(shù)文檔的設(shè)計(jì)向國(guó)標(biāo)、IC標(biāo)準(zhǔn)靠攏。
    發(fā)表于 03-29 14:51 ?0次下載
    原理圖繪<b class='flag-5'>制規(guī)范</b>電子版資料下載

    基于規(guī)范化函數(shù)的深度金字塔模型算法

    時(shí)的檢測(cè)效果不理想。因此,提出一種基于規(guī)范化函欻的深度金字塔模型(Norm-DP)算法,使用規(guī)范化函數(shù)融合可變形部件模型和卷積神經(jīng)網(wǎng)絡(luò)模型,直接從金字塔特征中提取正負(fù)樣本,使用隱變量攴持向量杋進(jìn)行模型訓(xùn)練,結(jié)合柔性非
    發(fā)表于 03-30 14:09 ?14次下載
    基于<b class='flag-5'>規(guī)范化</b>函數(shù)的深度金字塔模型算法

    怎么樣才能讓Java代碼編寫更規(guī)范化

    作者 | 濤姐濤哥 鏈接 | cnblogs.com/taojietaoge/p/11575376.html 如何更規(guī)范化編寫Java 代碼 Many of the happiest people
    的頭像 發(fā)表于 08-27 09:31 ?3698次閱讀

    使用NVIDIA NeMo進(jìn)行文本規(guī)范化和反向文本規(guī)范化

    文本規(guī)范化( TN )將文本從書面形式轉(zhuǎn)換為口頭形式,是文本到語(yǔ)音( TTS )之前的一個(gè)重要預(yù)處理步驟。 TN 確保 TTS 可以處理所有輸入文本,而不會(huì)跳過未知符號(hào)。例如,“ 123 美元”轉(zhuǎn)換為“一百二十三美元”
    的頭像 發(fā)表于 10-11 11:41 ?2128次閱讀
    使用NVIDIA NeMo進(jìn)行文本<b class='flag-5'>規(guī)范化</b>和反向文本<b class='flag-5'>規(guī)范化</b>

    論硬件開發(fā)過程中開發(fā)文檔規(guī)范化的重要性

    硬件開發(fā)的標(biāo)準(zhǔn)是公司管理過程中的重要組成部分,它離不開硬件開發(fā)文檔的規(guī)范化,很多公司并不了解開發(fā)文檔的重要性,容易將其忽視。沐渥科技認(rèn)為一
    的頭像 發(fā)表于 11-28 19:29 ?866次閱讀
    論硬件<b class='flag-5'>開發(fā)</b>過程中<b class='flag-5'>開發(fā)</b>文檔<b class='flag-5'>規(guī)范化</b>的重要性

    淺談?dòng)布娐?b class='flag-5'>開發(fā)流程規(guī)范

    硬件電路開發(fā)流程是指導(dǎo)硬件工程師按規(guī)范化方式進(jìn)行開發(fā)的準(zhǔn)則,規(guī)范硬件電路開發(fā)的全過程。
    的頭像 發(fā)表于 08-03 10:31 ?1368次閱讀
    淺談?dòng)布娐?b class='flag-5'>開發(fā)</b>流程<b class='flag-5'>規(guī)范</b>