Google、Deepmind和蘇黎世聯(lián)邦理工學院的研究人員提出“好奇心學習”新方法,改變了智能體“好奇心”的生成方式和獎勵機制,獎勵機制不再基于智能體的“意外”,而是其記憶和所在情景。研究人員稱,新方法可以有效降低智能體“原地兜圈子”、“拖延”等不良行為,有效提升模型性能。
強化學習是機器學習中最活躍的研究領域之一,在該領域的研究環(huán)境下,人工智能體(agent)做到正確的事情時會獲得積極的獎勵,否則獲得負面的獎勵。
這種“胡蘿卜加大棒”的方法簡單而通用,DeepMind教授利用DQN算法來玩Atari游戲和AlphaGoZero下圍棋,都是利用強化學習模型。OpenAI團隊利用OpenAI-Five算法來打Dota,Google如何教機器人手臂來握住新目標,也是利用強化學習實現(xiàn)的。不過,盡管強化學習取得了如此大的成功,但想使其成為一種有效的技術(shù),仍然存在許多挑戰(zhàn)。
標準的強化學習算法在對智能體反饋信息很少的環(huán)境中表現(xiàn)不佳。至關(guān)重要的是,這類環(huán)境在現(xiàn)實世界中是很常見的。舉個例子,如何在一個大型的迷宮式超市中學習如何找到自己喜歡的奶酪。你找了又找,但找不到賣奶酪的貨架。
如果做完了某一步動作,既沒有“胡蘿卜”,也沒有“大棒”,那智能體便無法判斷是否正朝著正確的方向前進。在沒有獎勵的情況下,怎樣才能避免原地兜圈子?也只有好奇心了,好奇心會激勵目標進入一個似乎不熟悉的區(qū)域,到那里去找奶酪。
在Google Brain團隊、DeepMind和蘇黎世聯(lián)邦理工學院的合作研究中,提出了一種新的基于情景記憶的模型,它可以提供與好奇心類似的獎勵,可以用于探索周圍環(huán)境。
研究團隊希望,智能體不僅要能探索環(huán)境,而且還要解決原始任務,因此將模型提供的獎勵加入原始的反饋信息稀疏的任務的獎勵中。合并后的獎勵不再稀疏,使用標準強化學習算法就可以從中學習。因此,該團隊提出的好奇心方法擴展了可用強化學習解決的任務集。研究論文題為《Episodic Curiosity through Reachability》
基于情景的好奇心模型:觀察結(jié)果被添加到智能體的記憶中,獎勵基于智能體當前的觀察結(jié)果與記憶中最相似的結(jié)果的差異來計算的。智能體會因為看到記憶中尚不存在的觀察結(jié)果而獲得更多獎勵。
這一方法的關(guān)鍵是,將智能體對環(huán)境的觀察結(jié)果存儲在情景記憶中,同時對智能體觀察到的“記憶中尚不存在”的結(jié)果也進行獎勵?!坝洃浿胁淮嬖凇笔沁@一方法中新的定義,智能體去尋求這種觀察結(jié)果,意味著去尋求不熟悉的東西。尋求陌生事物的驅(qū)動力會讓智能體到達新的位置,防止其在原地兜圈子,并最終幫助其找到目標。下文還將談到,這種方法不會像其他一些方法那樣,讓智能體出現(xiàn)一些不希望出現(xiàn)的行為,比如類似人類的“拖延”行為。
過去的好奇心學習機制:基于“意外”的好奇心
盡管在過去有許多嘗試來形成好奇心,但本文關(guān)注的是一種自然且非常流行的方法:基于“意外”的好奇心機制。最近一篇題為“Curiosity-driven Exploration bySelf-supervised Prediction”的論文中探討了這個問題。此方法一般稱為ICM方法。為了說明意外是如何引發(fā)好奇心的,這里再次以超市中尋找奶酪的比喻為例。
想象一下當你在逛市場時,其實會嘗試著預測未來(“現(xiàn)在我在賣肉攤位處,所以我認為拐角處應該是賣魚的,超市連鎖店中這兩個部分一般是相鄰的”)。如果你的預測錯了,你會感到意外(“啊,原來是賣菜的。我沒想到!”)因而得到一個回報。這使你更有動力將來更加關(guān)注拐角處,探索新的地方,看看自己對它們的預測是否符合現(xiàn)實(也是希望能夠找到奶酪)。
與此類似,ICM方法也建立了關(guān)于世界動態(tài)的預測模型,并在模型未能做出良好預測時對智能體給予獎勵,這種獎勵標志著“意外”或“新東西”。注意,探索沒去過的地方,并不是ICM好奇心機制的直接組成部分。
對于ICM方法而言,這只是獲得更多“意外”的一種方式,目的是讓獲得的總體獎勵最大化。事實證明,在某些環(huán)境中可能存在其他方式造成“自我意外”,從而導致無法預料的結(jié)果。
基于“意外”好奇心的智能體會一直卡在電視前,不去執(zhí)行任務
基于“意外好奇心“的智能體易產(chǎn)生“拖延行為”
在 《Large-Scale Study of Curiosity-Driven Learning》一文中,ICM方法的作者和OpenAI的研究人員表明,基于“意外最大化”的強化學習方法可能存在潛在的風險:智能體可以學會放縱和拖延的行為,不去做任何有用的事情來完成當前任務。
為了了解其中的原因,請看一個常見的思想實驗,實驗名為“嘈雜的電視問題”,在實驗中,智能體被置于一個迷宮中,任務是尋找一個非常有價值的項目(與本文之前的超市例子中的“奶酪”類似)。
測試環(huán)境中還放了一臺電視,智能體有電視的遙控器。電視頻道數(shù)量有限(每個頻道放映不同的節(jié)目),每次按鍵都會切換到隨機頻道。智能體在這樣的環(huán)境中會如何表現(xiàn)?
對基于意外的好奇心的方法而言,改變頻道會產(chǎn)生巨大的回報,因為每次頻道變化都是不可預測和意外的。重要的是,即使在所有可用頻道的節(jié)目都循環(huán)出現(xiàn)一次之后,由于頻道放映的內(nèi)容是隨機的,所以每一個新變化仍然屬于意外,因為智能體一直預測改變頻道后會放什么節(jié)目,這個預測很可能會出錯,導致意外的產(chǎn)生。
即使智能體已經(jīng)看過每個頻道的每個節(jié)目,這種隨機變化仍然是不可預測的。因此,不斷收獲意外的好奇心智能體,最終將永遠留在電視機前,不會去尋找那個非常有價值的物品,這類似于一種“拖延”行為。那么,如何定義“好奇心”才能避免產(chǎn)生這種拖延行為呢?
基于“情境”的好奇心模型
在《Episodic Curiositythrough Reachability》一文中,我們探索了一種基于記憶的“情境好奇心”模型,結(jié)果證明,這種模型不太容易產(chǎn)生“自我放縱”的即時滿足感。為什么呢?
這里仍以上文的實驗為例,智能體在不斷變換電視頻道一段時間后,所有的節(jié)目最終都會出現(xiàn)在記憶中。因此,電視將不再具有吸引力:即使屏幕上出現(xiàn)的節(jié)目順序是隨機且不可預測的,但所有這些節(jié)目已經(jīng)在記憶中了。
這是本方法與前文的“基于意外”的方法的主要區(qū)別:我們的方法甚至沒有去預測未來。與此相反,智能體會檢查過去的信息,了解自己是否已經(jīng)看到過與當前的觀察結(jié)果。因此,我們的智能體不會被嘈雜的電視所提供的“即時滿足感”所吸引。它必須去電視之外世界進行探索,才能獲得更多獎勵。
如何判斷智能體是否看到與現(xiàn)有記憶中相同的東西?檢查二者是否完全匹配可能是毫無意義的:因為在現(xiàn)實環(huán)境中,很少出現(xiàn)完全相同的場景。比如,即使智能體返回了一間完全相同的房間內(nèi),其觀察角度也會與之前的記憶場景不同。
我們不會檢查智能體記憶中的是否存在精確匹配,而是用訓練后的深度神經(jīng)網(wǎng)絡來衡量兩種體驗的相似度。為了訓練該網(wǎng)絡,我們會猜測前后兩個觀察結(jié)果在時間上是否相距很近。如果二者在時間上很接近,很可能就應該被視為智能體同一段體驗中的不同部分。
是新是舊可由“可達性”圖決定。在實際應用中,此圖無法獲取,我們通過訓練神經(jīng)網(wǎng)絡估計器,在觀察結(jié)果之間估計一系列步驟。
實驗結(jié)果與未來展望
為了比較不同方法的表現(xiàn),我們在兩個視覺元素豐富的3D環(huán)境中進行了測試:分別為ViZDoom和DMLab。在這些環(huán)境中,智能體的任務是處理各種問題,比如在迷宮中搜索目標,或者收集“好目標”,同時避開“壞目標”。
DMLab環(huán)境恰好能為智能體提供很炫酷的工具。此前的研究中,關(guān)于DMLab的標準設置就是為智能體配備適用所有任務的小工具,如果代理不需要特定任務的小工具,那么也可以不用。
有趣的是,在類似于上文的嘈雜的電視實驗中,基于意外的ICM方法實際上使用了這個小工具,即使它對于當前任務并無用處!智能體的任務是在迷宮中搜尋高回報的目標,但它卻更喜歡花時間對墻壁進行標記,因為這會產(chǎn)生很多“意外”獎勵。
從理論上講,預測標記的結(jié)果是可能的,但實際上太難實現(xiàn)了,因為智能體顯然不具備預測這些結(jié)果所需的更深入的物理知識。
基于“意外”的ICM方法,智能體一直在標記墻壁,而不是探索迷宮
而我們的方法則在相同的條件下學習合理的探索行為。智能體沒有試圖預測其行為的結(jié)果,而是尋求從已在情景記憶中存在的那些“更難”實現(xiàn)目標的觀察結(jié)果。換句話說,智能體會根據(jù)記憶,去尋求更難實現(xiàn)的目標,而不僅僅進行標記操作。
在我們的“情景記憶”方法中,智能體會進行合理的探索
有趣的是,我們的方法所實施的獎勵機制,會懲罰在原地兜圈子的智能體。這是因為在完成一次內(nèi)容循環(huán)后,智能體之后的觀察結(jié)果都已存在于記憶中了,因此不會得到任何獎勵:
對我們的方法獎勵機制的可視化:紅色表示負面獎勵,綠色表示正面獎勵。從左到右分別為:使用獎勵的映射,使用當前記憶位置的映射,第一人稱視圖
我們希望我們的研究有助于引領對新的探索方法的討論。有關(guān)我們方法的深入分析,請查看我們的研究論文的預印本。
-
機器人
+關(guān)注
關(guān)注
211文章
28445瀏覽量
207225 -
智能體
+關(guān)注
關(guān)注
1文章
151瀏覽量
10586
原文標題:Deepmind“好奇心”強化學習新突破!改變獎勵機制,讓智能體不再“兜圈子”
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論