国产三级片视频播放,久久久中文字幕

多任務(wù)學(xué)習(xí)一直是AI研究的長(zhǎng)期目標(biāo)。DeepMind開發(fā)了PopArt，解決了不同游戲獎(jiǎng)勵(lì)機(jī)制規(guī)范化的問題，它可以玩57款雅達(dá)利電子游戲，并且在所有57款游戲中達(dá)到高于人類中間水平的表現(xiàn)。

多任務(wù)學(xué)習(xí)——讓單個(gè)agent學(xué)習(xí)如何解決許多不同的任務(wù)——這是AI研究的一個(gè)長(zhǎng)期目標(biāo)。

近年來，多任務(wù)學(xué)習(xí)領(lǐng)域已經(jīng)取得許多卓越的進(jìn)步，例如DQN這樣的智能體能夠使用相同的算法來學(xué)習(xí)玩多個(gè)游戲，包括雅達(dá)利經(jīng)典的 “突出重圍”（Breakout）和 “乒乓球”（Pong）游戲。

這些算法為每項(xiàng)任務(wù)訓(xùn)練一個(gè)專家智能體（expert agents）。隨著AI研究向更復(fù)雜的現(xiàn)實(shí)世界領(lǐng)域發(fā)展，構(gòu)建一個(gè)單一的強(qiáng)智能體（general agent）來學(xué)習(xí)執(zhí)行多重任務(wù)將變得至關(guān)重要，而不是構(gòu)建多個(gè)專家智能體。然而，到目前為止，這已經(jīng)被證明是一項(xiàng)重大挑戰(zhàn)。

原因之一是，強(qiáng)化學(xué)習(xí)智能體用來判斷成功的獎(jiǎng)勵(lì)方案經(jīng)常存在差異，導(dǎo)致他們把注意力集中在獎(jiǎng)勵(lì)更高的任務(wù)上。例如，在雅達(dá)利游戲“Pong”中，agent每一步會(huì)獲得-1、0或+1的獎(jiǎng)勵(lì):

Pong游戲中，兩道豎杠代表球拍，一個(gè)小光點(diǎn)代表球在屏幕上蹦蹦跳跳，由人操縱按紐控制反彈，打不中就失去一分

相比之下，在“吃豆人”游戲中，agent每走一步就可獲得幾百、幾千的分?jǐn)?shù)。即使個(gè)體獎(jiǎng)勵(lì)的規(guī)模相似，但隨著agent變得更好，獎(jiǎng)勵(lì)的頻率會(huì)隨著時(shí)間推移而變化。

這意味著agent傾向于關(guān)注那些有很高分?jǐn)?shù)的任務(wù)，導(dǎo)致在某些任務(wù)上表現(xiàn)更好，而在其他任務(wù)上表現(xiàn)更差。

為了解決這些問題，DeepMind開發(fā)了PopArt，它可以調(diào)整每一款游戲的分?jǐn)?shù)等級(jí)，這樣不管游戲原本的獎(jiǎng)勵(lì)等級(jí)如何規(guī)定，AI智能體都會(huì)判斷游戲具有同等的學(xué)習(xí)價(jià)值。

PopArt：在保持輸出完好的同時(shí)，自適應(yīng)地重新調(diào)整目標(biāo)（PreservingOutputsPrecisely whileAdaptivelyRescalingTargets）。

DeepMind將PopArt規(guī)范化應(yīng)用到最先進(jìn)的強(qiáng)化學(xué)習(xí)智能體上，從而得到一個(gè)單一的智能體，它可以玩57款雅達(dá)利電子游戲，并且在所有57款游戲中達(dá)到高于人類中間水平的表現(xiàn)。

PopArt：規(guī)范化獎(jiǎng)勵(lì)，不影響目標(biāo)

一般來說，深度學(xué)習(xí)依賴于不斷更新的神經(jīng)網(wǎng)絡(luò)的權(quán)重，使神經(jīng)網(wǎng)絡(luò)的輸出更接近期望的目標(biāo)輸出。當(dāng)神經(jīng)網(wǎng)絡(luò)被用于深度強(qiáng)化學(xué)習(xí)時(shí)也是如此。PopArt通過估計(jì)這些目標(biāo)的平均值和傳播范圍（比如游戲中的得分）來工作。然后，它使用這些數(shù)據(jù)對(duì)目標(biāo)進(jìn)行規(guī)范化，再利用它們來更新網(wǎng)絡(luò)的權(quán)重。

使用規(guī)范化的目標(biāo)可以使學(xué)習(xí)更加穩(wěn)定和強(qiáng)大，以適應(yīng)規(guī)模和轉(zhuǎn)換的變化。為了獲得準(zhǔn)確的估計(jì)——例如對(duì)未來的預(yù)期分?jǐn)?shù)的估計(jì)——網(wǎng)絡(luò)的輸出可以通過反轉(zhuǎn)規(guī)范化過程來重新調(diào)整到真實(shí)的目標(biāo)范圍。如果直接這樣做，每次更新統(tǒng)計(jì)數(shù)據(jù)都會(huì)改變所有未規(guī)范化的輸出，包括那些已經(jīng)非常好的輸出。我們通過向相反的方向更新網(wǎng)絡(luò)來防止這種情況的發(fā)生。這意味著我們可以在保持以前學(xué)習(xí)過的輸出完好的同時(shí)，獲得大規(guī)模更新的好處。

傳統(tǒng)上，研究人員通過在強(qiáng)化學(xué)習(xí)算法中使用獎(jiǎng)勵(lì)修剪（rewardclipping）來克服不同獎(jiǎng)勵(lì)尺度的問題。這種方法將很大或很小的分?jǐn)?shù)修剪為1或-1分的得分，大致使預(yù)期獎(jiǎng)勵(lì)規(guī)范化。雖然這使學(xué)習(xí)變得更容易，但是它也改變了agent的目標(biāo)。

例如，在“吃豆人小姐”（Ms. Pac-Man）游戲中，吃豆人的目標(biāo)是收集豆子，吃到每個(gè)豆子獲得10分，吃到鬼魂獲得200到1600分。通過修剪獎(jiǎng)勵(lì)，agent吃一個(gè)豆子和吃一個(gè)鬼魂得到的獎(jiǎng)勵(lì)沒有明顯的區(qū)別，導(dǎo)致agent只吃豆子，從不去追逐鬼魂。如下面的視頻所示：

當(dāng)我們用PopArt的自適應(yīng)規(guī)范化來代替reward clipping，結(jié)果導(dǎo)致了智能體完全不同的行為。它會(huì)追逐鬼魂，并且獲得了更高的分?jǐn)?shù)。

使用PopArt進(jìn)行多任務(wù)深度強(qiáng)化學(xué)習(xí)

我們將PopArt應(yīng)用于Importance-weighted Actor-Learner Architecture(IMPALA)，這是DeepMind最流行的深度強(qiáng)化學(xué)習(xí)智能體之一。在實(shí)驗(yàn)中，與沒有使用PopArt的baseline agent相比，PopArt大大提高了agent的表現(xiàn)。無論是修剪了獎(jiǎng)勵(lì)還是沒有修剪獎(jiǎng)勵(lì)，PopArt智能體在游戲中的中位數(shù)得分都高于人類中位數(shù)得分。

這遠(yuǎn)遠(yuǎn)高于使用reward clipping的baseline，而沒有使用reward clipping的baseline根本無法達(dá)到有意義的表現(xiàn)，因?yàn)樗鼰o法有效地處理不同游戲之間的獎(jiǎng)勵(lì)尺度的巨大變化。

57款A(yù)tari游戲的標(biāo)準(zhǔn)化表現(xiàn)中位數(shù)。每一行對(duì)應(yīng)于單個(gè)智能體的中位數(shù)表現(xiàn)，該智能體被訓(xùn)練來使用相同的神經(jīng)網(wǎng)絡(luò)來玩所有這些游戲。實(shí)線表示使用 reward clipping的表現(xiàn)，虛線表示沒有使用 reward clipping的表現(xiàn)。

這是我們第一次在使用單一智能體的這種多任務(wù)環(huán)境中看到超過人類的表現(xiàn)，這表明PopArt可以為如何在無需手動(dòng)修剪或調(diào)整的情況下平衡各種目標(biāo)的開放式研究問題提供一些解決方案。當(dāng)我們將AI應(yīng)用于更復(fù)雜的多模態(tài)領(lǐng)域時(shí)，AI在學(xué)習(xí)過程中自動(dòng)適應(yīng)規(guī)范化的能力變得非常重要，因?yàn)樵谶@些領(lǐng)域中，AI智能體必須學(xué)會(huì)權(quán)衡各種不同的獎(jiǎng)勵(lì)和不同的目標(biāo)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4777

瀏覽量
100970
智能體

智能體

+關(guān)注

關(guān)注
1

文章
162

瀏覽量
10599
DeepMind

DeepMind

+關(guān)注

關(guān)注
0

文章
131

瀏覽量
10893

原文標(biāo)題：強(qiáng)化學(xué)習(xí)重大突破：DeepMind用一個(gè)AI在57個(gè)游戲中全面超越人類

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

工器具規(guī)范化使用

電力企業(yè)安全工器具規(guī)范化操作指導(dǎo)系統(tǒng) 一、系統(tǒng)概述對(duì)電力生產(chǎn)人員來說，了解各種安全工器具的性能和用途，正確掌握它們

發(fā)表于 11-18 14:02

貼片知識(shí)課堂十一，PCB設(shè)計(jì)規(guī)范化第第三節(jié)

本帖最后由 eehome 于 2013-1-5 10:04 編輯麥斯艾姆（massembly）貼片知識(shí)課堂十一，PCB設(shè)計(jì)規(guī)范化第三節(jié)麥斯艾姆（massembly）貼片知識(shí)課堂繼續(xù)上次的話

發(fā)表于 10-31 14:16

關(guān)于發(fā)帖標(biāo)題規(guī)范化管理公告

關(guān)于發(fā)帖標(biāo)題規(guī)范化管理公告由于論壇管理事物繁重，很多時(shí)候由不得我們幾個(gè)管理員的眼睛和手指去處理，為了大家的問題能夠更好，更直接的讓各位大大們過目，讓大家的問題都能得到解決，管理員團(tuán)隊(duì)特出發(fā)帖標(biāo)題規(guī)范

發(fā)表于 11-04 17:11

未來的AI 深挖谷歌 DeepMind 和它背后的技術(shù)

學(xué)習(xí)從非結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí)來編寫分析報(bào)告或執(zhí)行無人監(jiān)督的任務(wù)。所有這些發(fā)展都為不同的公司發(fā)揮作用并證明他們的價(jià)值奠定了基礎(chǔ)。因此，很多像DeepMind這樣的公司成立了，來繼續(xù)發(fā)展這一領(lǐng)域。你對(duì)其有

發(fā)表于 08-26 12:04

代碼規(guī)范化如何學(xué)習(xí)，單片機(jī)也要求規(guī)范化嗎？

代碼規(guī)范化如何學(xué)習(xí)，單片機(jī)也要求規(guī)范化么？

發(fā)表于 10-12 07:19

PCB繪制規(guī)范及審核要點(diǎn)(免費(fèi))

PCB相關(guān)的內(nèi)容，以及繪制規(guī)范及審核要點(diǎn)，需仔細(xì)閱讀

發(fā)表于 01-22 14:35 ?0次下載

一種創(chuàng)新的無監(jiān)督文本規(guī)范化系統(tǒng)

推特文本中包含著大量的非標(biāo)準(zhǔn)詞，這些非標(biāo)準(zhǔn)詞是由人們有意或無意而創(chuàng)造的。對(duì)很多自然語(yǔ)言處理的任務(wù)而言，預(yù)先對(duì)推特文本進(jìn)行規(guī)范化處理是很有必要的。針對(duì)已有的規(guī)范化系統(tǒng)性能較差的問題，提出一種創(chuàng)新的無

發(fā)表于 12-15 14:12 ?0次下載

一種創(chuàng)新的無監(jiān)督文本<b class='flag-5'>規(guī)范化</b>系統(tǒng)

數(shù)據(jù)庫(kù)-關(guān)系規(guī)范化的詳細(xì)資料介紹，為什么要對(duì)進(jìn)行關(guān)系的規(guī)范化？

對(duì)關(guān)系的規(guī)范化是改造關(guān)系模式過程，首先，根據(jù)一組不同級(jí)別的范式判定關(guān)系的規(guī)范化程度，確定不正常的數(shù)據(jù)依賴關(guān)系，通過模式分解將一個(gè)低一級(jí)范式的關(guān)系模式，轉(zhuǎn)換為若干個(gè)高一級(jí)的范式的關(guān)系模式的集合，消除其中不合適的數(shù)據(jù)依賴，以解決插入異常、刪除異常、更新異常和數(shù)據(jù)冗余問題。

發(fā)表于 09-05 14:26 ?5次下載