多任務(wù)學(xué)習(xí)一直是AI研究的長(zhǎng)期目標(biāo)。DeepMind開發(fā)了PopArt,解決了不同游戲獎(jiǎng)勵(lì)機(jī)制規(guī)范化的問題,它可以玩57款雅達(dá)利電子游戲,并且在所有57款游戲中達(dá)到高于人類中間水平的表現(xiàn)。
多任務(wù)學(xué)習(xí)——讓單個(gè)agent學(xué)習(xí)如何解決許多不同的任務(wù)——這是AI研究的一個(gè)長(zhǎng)期目標(biāo)。
近年來,多任務(wù)學(xué)習(xí)領(lǐng)域已經(jīng)取得許多卓越的進(jìn)步,例如DQN這樣的智能體能夠使用相同的算法來學(xué)習(xí)玩多個(gè)游戲,包括雅達(dá)利經(jīng)典的 “突出重圍”(Breakout)和 “乒乓球”(Pong)游戲。
這些算法為每項(xiàng)任務(wù)訓(xùn)練一個(gè)專家智能體(expert agents)。隨著AI研究向更復(fù)雜的現(xiàn)實(shí)世界領(lǐng)域發(fā)展,構(gòu)建一個(gè)單一的強(qiáng)智能體(general agent)來學(xué)習(xí)執(zhí)行多重任務(wù)將變得至關(guān)重要,而不是構(gòu)建多個(gè)專家智能體。然而,到目前為止,這已經(jīng)被證明是一項(xiàng)重大挑戰(zhàn)。
原因之一是,強(qiáng)化學(xué)習(xí)智能體用來判斷成功的獎(jiǎng)勵(lì)方案經(jīng)常存在差異,導(dǎo)致他們把注意力集中在獎(jiǎng)勵(lì)更高的任務(wù)上。例如,在雅達(dá)利游戲“Pong”中,agent每一步會(huì)獲得-1、0或+1的獎(jiǎng)勵(lì):
Pong游戲中,兩道豎杠代表球拍,一個(gè)小光點(diǎn)代表球在屏幕上蹦蹦跳跳,由人操縱按紐控制反彈,打不中就失去一分
相比之下,在“吃豆人”游戲中,agent每走一步就可獲得幾百、幾千的分?jǐn)?shù)。即使個(gè)體獎(jiǎng)勵(lì)的規(guī)模相似,但隨著agent變得更好,獎(jiǎng)勵(lì)的頻率會(huì)隨著時(shí)間推移而變化。
這意味著agent傾向于關(guān)注那些有很高分?jǐn)?shù)的任務(wù),導(dǎo)致在某些任務(wù)上表現(xiàn)更好,而在其他任務(wù)上表現(xiàn)更差。
為了解決這些問題,DeepMind開發(fā)了PopArt,它可以調(diào)整每一款游戲的分?jǐn)?shù)等級(jí),這樣不管游戲原本的獎(jiǎng)勵(lì)等級(jí)如何規(guī)定,AI智能體都會(huì)判斷游戲具有同等的學(xué)習(xí)價(jià)值。
PopArt:在保持輸出完好的同時(shí),自適應(yīng)地重新調(diào)整目標(biāo)(PreservingOutputsPrecisely whileAdaptivelyRescalingTargets)。
DeepMind將PopArt規(guī)范化應(yīng)用到最先進(jìn)的強(qiáng)化學(xué)習(xí)智能體上,從而得到一個(gè)單一的智能體,它可以玩57款雅達(dá)利電子游戲,并且在所有57款游戲中達(dá)到高于人類中間水平的表現(xiàn)。
PopArt:規(guī)范化獎(jiǎng)勵(lì),不影響目標(biāo)
一般來說,深度學(xué)習(xí)依賴于不斷更新的神經(jīng)網(wǎng)絡(luò)的權(quán)重,使神經(jīng)網(wǎng)絡(luò)的輸出更接近期望的目標(biāo)輸出。當(dāng)神經(jīng)網(wǎng)絡(luò)被用于深度強(qiáng)化學(xué)習(xí)時(shí)也是如此。PopArt通過估計(jì)這些目標(biāo)的平均值和傳播范圍(比如游戲中的得分)來工作。然后,它使用這些數(shù)據(jù)對(duì)目標(biāo)進(jìn)行規(guī)范化,再利用它們來更新網(wǎng)絡(luò)的權(quán)重。
使用規(guī)范化的目標(biāo)可以使學(xué)習(xí)更加穩(wěn)定和強(qiáng)大,以適應(yīng)規(guī)模和轉(zhuǎn)換的變化。為了獲得準(zhǔn)確的估計(jì)——例如對(duì)未來的預(yù)期分?jǐn)?shù)的估計(jì)——網(wǎng)絡(luò)的輸出可以通過反轉(zhuǎn)規(guī)范化過程來重新調(diào)整到真實(shí)的目標(biāo)范圍。如果直接這樣做,每次更新統(tǒng)計(jì)數(shù)據(jù)都會(huì)改變所有未規(guī)范化的輸出,包括那些已經(jīng)非常好的輸出。我們通過向相反的方向更新網(wǎng)絡(luò)來防止這種情況的發(fā)生。這意味著我們可以在保持以前學(xué)習(xí)過的輸出完好的同時(shí),獲得大規(guī)模更新的好處。
傳統(tǒng)上,研究人員通過在強(qiáng)化學(xué)習(xí)算法中使用獎(jiǎng)勵(lì)修剪(rewardclipping)來克服不同獎(jiǎng)勵(lì)尺度的問題。這種方法將很大或很小的分?jǐn)?shù)修剪為1或-1分的得分,大致使預(yù)期獎(jiǎng)勵(lì)規(guī)范化。雖然這使學(xué)習(xí)變得更容易,但是它也改變了agent的目標(biāo)。
例如,在“吃豆人小姐”(Ms. Pac-Man)游戲中,吃豆人的目標(biāo)是收集豆子,吃到每個(gè)豆子獲得10分,吃到鬼魂獲得200到1600分。通過修剪獎(jiǎng)勵(lì),agent吃一個(gè)豆子和吃一個(gè)鬼魂得到的獎(jiǎng)勵(lì)沒有明顯的區(qū)別,導(dǎo)致agent只吃豆子,從不去追逐鬼魂。如下面的視頻所示:
當(dāng)我們用PopArt的自適應(yīng)規(guī)范化來代替reward clipping,結(jié)果導(dǎo)致了智能體完全不同的行為。它會(huì)追逐鬼魂,并且獲得了更高的分?jǐn)?shù)。
使用PopArt進(jìn)行多任務(wù)深度強(qiáng)化學(xué)習(xí)
我們將PopArt應(yīng)用于Importance-weighted Actor-Learner Architecture(IMPALA),這是DeepMind最流行的深度強(qiáng)化學(xué)習(xí)智能體之一。在實(shí)驗(yàn)中,與沒有使用PopArt的baseline agent相比,PopArt大大提高了agent的表現(xiàn)。無論是修剪了獎(jiǎng)勵(lì)還是沒有修剪獎(jiǎng)勵(lì),PopArt智能體在游戲中的中位數(shù)得分都高于人類中位數(shù)得分。
這遠(yuǎn)遠(yuǎn)高于使用reward clipping的baseline,而沒有使用reward clipping的baseline根本無法達(dá)到有意義的表現(xiàn),因?yàn)樗鼰o法有效地處理不同游戲之間的獎(jiǎng)勵(lì)尺度的巨大變化。
57款A(yù)tari游戲的標(biāo)準(zhǔn)化表現(xiàn)中位數(shù)。每一行對(duì)應(yīng)于單個(gè)智能體的中位數(shù)表現(xiàn),該智能體被訓(xùn)練來使用相同的神經(jīng)網(wǎng)絡(luò)來玩所有這些游戲。實(shí)線表示使用 reward clipping的表現(xiàn),虛線表示沒有使用 reward clipping的表現(xiàn)。
這是我們第一次在使用單一智能體的這種多任務(wù)環(huán)境中看到超過人類的表現(xiàn),這表明PopArt可以為如何在無需手動(dòng)修剪或調(diào)整的情況下平衡各種目標(biāo)的開放式研究問題提供一些解決方案。當(dāng)我們將AI應(yīng)用于更復(fù)雜的多模態(tài)領(lǐng)域時(shí),AI在學(xué)習(xí)過程中自動(dòng)適應(yīng)規(guī)范化的能力變得非常重要,因?yàn)樵谶@些領(lǐng)域中,AI智能體必須學(xué)會(huì)權(quán)衡各種不同的獎(jiǎng)勵(lì)和不同的目標(biāo)。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4777瀏覽量
100970 -
智能體
+關(guān)注
關(guān)注
1文章
162瀏覽量
10599 -
DeepMind
+關(guān)注
關(guān)注
0文章
131瀏覽量
10893
原文標(biāo)題:強(qiáng)化學(xué)習(xí)重大突破:DeepMind用一個(gè)AI在57個(gè)游戲中全面超越人類
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論