0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

Deepmind“好奇心學習”新機制:讓智能體不再偷懶

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-10-26 10:02 ? 次閱讀

Google、Deepmind和蘇黎世聯(lián)邦理工學院的研究人員提出“好奇心學習”新方法,改變了智能體“好奇心”的生成方式和獎勵機制,獎勵機制不再基于智能體的“意外”,而是其記憶和所在情景。研究人員稱,新方法可以有效降低智能體“原地兜圈子”、“拖延”等不良行為,有效提升模型性能。

強化學習是機器學習中最活躍的研究領域之一,在該領域的研究環(huán)境下,人工智能體(agent)做到正確的事情時會獲得積極的獎勵,否則獲得負面的獎勵。

這種“胡蘿卜加大棒”的方法簡單而通用,DeepMind教授利用DQN算法來玩Atari游戲和AlphaGoZero下圍棋,都是利用強化學習模型。OpenAI團隊利用OpenAI-Five算法來打Dota,Google如何教機器人手臂來握住新目標,也是利用強化學習實現(xiàn)的。不過,盡管強化學習取得了如此大的成功,但想使其成為一種有效的技術(shù),仍然存在許多挑戰(zhàn)。

標準的強化學習算法在對智能體反饋信息很少的環(huán)境中表現(xiàn)不佳。至關(guān)重要的是,這類環(huán)境在現(xiàn)實世界中是很常見的。舉個例子,如何在一個大型的迷宮式超市中學習如何找到自己喜歡的奶酪。你找了又找,但找不到賣奶酪的貨架。

如果做完了某一步動作,既沒有“胡蘿卜”,也沒有“大棒”,那智能體便無法判斷是否正朝著正確的方向前進。在沒有獎勵的情況下,怎樣才能避免原地兜圈子?也只有好奇心了,好奇心會激勵目標進入一個似乎不熟悉的區(qū)域,到那里去找奶酪。

在Google Brain團隊、DeepMind和蘇黎世聯(lián)邦理工學院的合作研究中,提出了一種新的基于情景記憶的模型,它可以提供與好奇心類似的獎勵,可以用于探索周圍環(huán)境。

研究團隊希望,智能體不僅要能探索環(huán)境,而且還要解決原始任務,因此將模型提供的獎勵加入原始的反饋信息稀疏的任務的獎勵中。合并后的獎勵不再稀疏,使用標準強化學習算法就可以從中學習。因此,該團隊提出的好奇心方法擴展了可用強化學習解決的任務集。研究論文題為《Episodic Curiosity through Reachability》

基于情景的好奇心模型:觀察結(jié)果被添加到智能體的記憶中,獎勵基于智能體當前的觀察結(jié)果與記憶中最相似的結(jié)果的差異來計算的。智能體會因為看到記憶中尚不存在的觀察結(jié)果而獲得更多獎勵。

這一方法的關(guān)鍵是,將智能體對環(huán)境的觀察結(jié)果存儲在情景記憶中,同時對智能體觀察到的“記憶中尚不存在”的結(jié)果也進行獎勵?!坝洃浿胁淮嬖凇笔沁@一方法中新的定義,智能體去尋求這種觀察結(jié)果,意味著去尋求不熟悉的東西。尋求陌生事物的驅(qū)動力會讓智能體到達新的位置,防止其在原地兜圈子,并最終幫助其找到目標。下文還將談到,這種方法不會像其他一些方法那樣,讓智能體出現(xiàn)一些不希望出現(xiàn)的行為,比如類似人類的“拖延”行為。

過去的好奇心學習機制:基于“意外”的好奇心

盡管在過去有許多嘗試來形成好奇心,但本文關(guān)注的是一種自然且非常流行的方法:基于“意外”的好奇心機制。最近一篇題為“Curiosity-driven Exploration bySelf-supervised Prediction”的論文中探討了這個問題。此方法一般稱為ICM方法。為了說明意外是如何引發(fā)好奇心的,這里再次以超市中尋找奶酪的比喻為例。

想象一下當你在逛市場時,其實會嘗試著預測未來(“現(xiàn)在我在賣肉攤位處,所以我認為拐角處應該是賣魚的,超市連鎖店中這兩個部分一般是相鄰的”)。如果你的預測錯了,你會感到意外(“啊,原來是賣菜的。我沒想到!”)因而得到一個回報。這使你更有動力將來更加關(guān)注拐角處,探索新的地方,看看自己對它們的預測是否符合現(xiàn)實(也是希望能夠找到奶酪)。

與此類似,ICM方法也建立了關(guān)于世界動態(tài)的預測模型,并在模型未能做出良好預測時對智能體給予獎勵,這種獎勵標志著“意外”或“新東西”。注意,探索沒去過的地方,并不是ICM好奇心機制的直接組成部分。

對于ICM方法而言,這只是獲得更多“意外”的一種方式,目的是讓獲得的總體獎勵最大化。事實證明,在某些環(huán)境中可能存在其他方式造成“自我意外”,從而導致無法預料的結(jié)果。

基于“意外”好奇心的智能體會一直卡在電視前,不去執(zhí)行任務

基于“意外好奇心“的智能體易產(chǎn)生“拖延行為”

在 《Large-Scale Study of Curiosity-Driven Learning》一文中,ICM方法的作者和OpenAI的研究人員表明,基于“意外最大化”的強化學習方法可能存在潛在的風險:智能體可以學會放縱和拖延的行為,不去做任何有用的事情來完成當前任務。

為了了解其中的原因,請看一個常見的思想實驗,實驗名為“嘈雜的電視問題”,在實驗中,智能體被置于一個迷宮中,任務是尋找一個非常有價值的項目(與本文之前的超市例子中的“奶酪”類似)。

測試環(huán)境中還放了一臺電視,智能體有電視的遙控器。電視頻道數(shù)量有限(每個頻道放映不同的節(jié)目),每次按鍵都會切換到隨機頻道。智能體在這樣的環(huán)境中會如何表現(xiàn)?

對基于意外的好奇心的方法而言,改變頻道會產(chǎn)生巨大的回報,因為每次頻道變化都是不可預測和意外的。重要的是,即使在所有可用頻道的節(jié)目都循環(huán)出現(xiàn)一次之后,由于頻道放映的內(nèi)容是隨機的,所以每一個新變化仍然屬于意外,因為智能體一直預測改變頻道后會放什么節(jié)目,這個預測很可能會出錯,導致意外的產(chǎn)生。

即使智能體已經(jīng)看過每個頻道的每個節(jié)目,這種隨機變化仍然是不可預測的。因此,不斷收獲意外的好奇心智能體,最終將永遠留在電視機前,不會去尋找那個非常有價值的物品,這類似于一種“拖延”行為。那么,如何定義“好奇心”才能避免產(chǎn)生這種拖延行為呢?

基于“情境”的好奇心模型

在《Episodic Curiositythrough Reachability》一文中,我們探索了一種基于記憶的“情境好奇心”模型,結(jié)果證明,這種模型不太容易產(chǎn)生“自我放縱”的即時滿足感。為什么呢?

這里仍以上文的實驗為例,智能體在不斷變換電視頻道一段時間后,所有的節(jié)目最終都會出現(xiàn)在記憶中。因此,電視將不再具有吸引力:即使屏幕上出現(xiàn)的節(jié)目順序是隨機且不可預測的,但所有這些節(jié)目已經(jīng)在記憶中了。

這是本方法與前文的“基于意外”的方法的主要區(qū)別:我們的方法甚至沒有去預測未來。與此相反,智能體會檢查過去的信息,了解自己是否已經(jīng)看到過與當前的觀察結(jié)果。因此,我們的智能體不會被嘈雜的電視所提供的“即時滿足感”所吸引。它必須去電視之外世界進行探索,才能獲得更多獎勵。

如何判斷智能體是否看到與現(xiàn)有記憶中相同的東西?檢查二者是否完全匹配可能是毫無意義的:因為在現(xiàn)實環(huán)境中,很少出現(xiàn)完全相同的場景。比如,即使智能體返回了一間完全相同的房間內(nèi),其觀察角度也會與之前的記憶場景不同。

我們不會檢查智能體記憶中的是否存在精確匹配,而是用訓練后的深度神經(jīng)網(wǎng)絡來衡量兩種體驗的相似度。為了訓練該網(wǎng)絡,我們會猜測前后兩個觀察結(jié)果在時間上是否相距很近。如果二者在時間上很接近,很可能就應該被視為智能體同一段體驗中的不同部分。

是新是舊可由“可達性”圖決定。在實際應用中,此圖無法獲取,我們通過訓練神經(jīng)網(wǎng)絡估計器,在觀察結(jié)果之間估計一系列步驟。

實驗結(jié)果與未來展望

為了比較不同方法的表現(xiàn),我們在兩個視覺元素豐富的3D環(huán)境中進行了測試:分別為ViZDoom和DMLab。在這些環(huán)境中,智能體的任務是處理各種問題,比如在迷宮中搜索目標,或者收集“好目標”,同時避開“壞目標”。

DMLab環(huán)境恰好能為智能體提供很炫酷的工具。此前的研究中,關(guān)于DMLab的標準設置就是為智能體配備適用所有任務的小工具,如果代理不需要特定任務的小工具,那么也可以不用。

有趣的是,在類似于上文的嘈雜的電視實驗中,基于意外的ICM方法實際上使用了這個小工具,即使它對于當前任務并無用處!智能體的任務是在迷宮中搜尋高回報的目標,但它卻更喜歡花時間對墻壁進行標記,因為這會產(chǎn)生很多“意外”獎勵。

從理論上講,預測標記的結(jié)果是可能的,但實際上太難實現(xiàn)了,因為智能體顯然不具備預測這些結(jié)果所需的更深入的物理知識。

基于“意外”的ICM方法,智能體一直在標記墻壁,而不是探索迷宮

而我們的方法則在相同的條件下學習合理的探索行為。智能體沒有試圖預測其行為的結(jié)果,而是尋求從已在情景記憶中存在的那些“更難”實現(xiàn)目標的觀察結(jié)果。換句話說,智能體會根據(jù)記憶,去尋求更難實現(xiàn)的目標,而不僅僅進行標記操作。

在我們的“情景記憶”方法中,智能體會進行合理的探索

有趣的是,我們的方法所實施的獎勵機制,會懲罰在原地兜圈子的智能體。這是因為在完成一次內(nèi)容循環(huán)后,智能體之后的觀察結(jié)果都已存在于記憶中了,因此不會得到任何獎勵:

對我們的方法獎勵機制的可視化:紅色表示負面獎勵,綠色表示正面獎勵。從左到右分別為:使用獎勵的映射,使用當前記憶位置的映射,第一人稱視圖

我們希望我們的研究有助于引領對新的探索方法的討論。有關(guān)我們方法的深入分析,請查看我們的研究論文的預印本。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    211

    文章

    28445

    瀏覽量

    207225
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    151

    瀏覽量

    10586

原文標題:Deepmind“好奇心”強化學習新突破!改變獎勵機制,讓智能體不再“兜圈子”

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    TC275HSM能支持SecOC中的密鑰刷新機制嗎?

    1.請教一下,像TC275HSM 能支持SecOC中的密鑰刷新機制嗎?即SecOC中的密鑰生成節(jié)點生成新的密鑰后,是如何下發(fā)給ECU的HSM中?2. 二代HSM TC3xx 的HSM 集成
    發(fā)表于 02-21 06:07

    南灣街道探索電動車管理新機制,首批智能充電樁投入使用

    ,積極探索管理新機制。街道納管轄區(qū)45家電動自行車生產(chǎn)、銷售、維修單位,并化繁為簡,采取“疏堵結(jié)合、以疏為主、***搭臺、企業(yè)運作、智慧管理”模式,以電動車保有量為413臺的沙塘布社區(qū)為實施試點,計劃建設6個
    發(fā)表于 08-29 14:51

    Microchip Technology的好奇心板的新設計

    即使在這個低成本的32位微控制器時代,8位微控制器仍然具有相關(guān)性,并將繼續(xù)用于新設計。 Microchip Technology的好奇心板是一款經(jīng)濟高效,完全集成的8位開發(fā)平臺,面向首次使用者
    發(fā)表于 10-31 11:55

    求大神分享一種基于bootloader的嵌入式軟件自動更新機制

    本文提出了一種具有較高穩(wěn)定性和安全性、基于bootloader的嵌入式軟件自動更新機制。該更新機制同時保存了3個文件,需要較多的Flash存儲空間,但同時降低了維護成本。
    發(fā)表于 04-27 06:33

    Android系統(tǒng)固件更新機制設計資料分享

    Android系統(tǒng)固件更新機制設計說明文檔V1.1xxx2014-9-14修改歷史記錄內(nèi)容編制\日期審核\日期批準\日期 V1.0建立初稿Xxx2014-9-14 V1.1 增加配圖,統(tǒng)一英文單詞大小寫Android啟動過程錯誤修正,紅色字體部...
    發(fā)表于 12-20 08:08

    一種基于嵌入式系統(tǒng)的遠程程序更新機制

    提出了一種基于嵌入式系統(tǒng)的遠程程序更新機制,通過一個具體的嵌入式遠程數(shù)字監(jiān)控系統(tǒng)設計方案,分析了該機制的系統(tǒng)結(jié)構(gòu)、實現(xiàn)原理和實現(xiàn)流程,實際的應用測試表明,所
    發(fā)表于 08-26 11:47 ?16次下載

    ADO_NET數(shù)據(jù)集更新機制及并發(fā)控制策略

    ADO_NET數(shù)據(jù)集更新機制及并發(fā)控制策略:本文分析了8I5J (?> 中的更新機制,論述了三種不同的更新邏輯的產(chǎn)生方式及各自特點,提出了并發(fā)控制的一些解決方法,及更新邏輯中其他一
    發(fā)表于 01-01 18:48 ?12次下載

    嵌入式系統(tǒng)自更新機制的設計與應用

    嵌入式系統(tǒng)自更新機制的設計與應用   隨著嵌入式系統(tǒng)的發(fā)展和廣泛應用,必不可少的維護工作變得日益繁重。如移動電話在用戶使用過程中,部
    發(fā)表于 03-29 15:08 ?926次閱讀
    嵌入式系統(tǒng)自更<b class='flag-5'>新機制</b>的設計與應用

    適用動態(tài)存儲的自適應刷新機制算法設計

    為滿足航天應用中數(shù)據(jù)傳輸與存儲中高可靠以及低功耗的要求,實現(xiàn)了一種自適應刷新機制的同步動態(tài)隨機存儲(Synchronous Dynamic Random Access MemorySDRAM)控制器
    發(fā)表于 04-03 16:00 ?0次下載
    適用動態(tài)存儲的自適應刷<b class='flag-5'>新機制</b>算法設計

    強化學習好奇心”模型:訓練無需外部獎勵,全靠自己

    我們的思路是,將內(nèi)在獎勵表示為預測agent在當前狀態(tài)下的行為后果時出現(xiàn)的錯誤,即agent學習的前向動態(tài)的預測誤差。我們徹底調(diào)查了54種環(huán)境中基于動力學的好奇心:這些場景包括視頻游戲、物理引擎模擬和虛擬3D導航任務等,如圖1所示。
    的頭像 發(fā)表于 08-20 08:55 ?1.2w次閱讀

    人工智能要想更快更好 好奇心必不可少

    這個問題可能有些寬泛,無法給出一個確切的答案。但如果你想要把接新任務,升級或者再玩一把等一系列概括起來,最簡單的解釋就是“好奇心”——只是想看看接下來會發(fā)生什么。事實證明,在指導人工智能玩電子游戲時,好奇心是一個非常有效的動力。
    發(fā)表于 11-07 09:51 ?696次閱讀

    機器人擁有好奇心機器人變得更加聰明

    擁有人類探索世界的好奇心,是機器人變得更加聰明的關(guān)鍵因素之一。德國波鴻大學的人工好奇心專家瓦倫康培拉指出,好奇的系統(tǒng)“不滿足于只學習一種任
    發(fā)表于 06-11 09:24 ?3150次閱讀

    好奇心對于學習人工智能有幫助嗎

    好奇心或進化驅(qū)動的人工智能可應用于學習的早期階段,也更適合缺乏大量數(shù)據(jù)的零散環(huán)境。
    發(fā)表于 07-01 15:30 ?463次閱讀

    語言模型做先驗,統(tǒng)一強化學習智能,DeepMind選擇走這條通用AI之路

    智能的開發(fā)中,強化學習與大語言模型、視覺語言模型等基礎模型的進一步融合究竟能擦出怎樣的火花?谷歌 DeepMind 給了我們新的答案。 一直以來,
    的頭像 發(fā)表于 07-24 16:55 ?538次閱讀
    語言模型做先驗,統(tǒng)一強化<b class='flag-5'>學習</b><b class='flag-5'>智能</b><b class='flag-5'>體</b>,<b class='flag-5'>DeepMind</b>選擇走這條通用AI之路

    石墨烯之父——安德烈·海姆,好奇心驅(qū)使下的幽默大師和創(chuàng)新者

    安德烈·海姆教授是卓越科學家,被譽為“石墨烯之父”,獲諾貝爾物理學獎,對石墨烯材料有重大貢獻。他重視好奇心,鼓勵將好奇心集中在研究領域。他認為石墨烯是一種非常年輕的材料,未來有著無限的可能性,可以應用于電池、光照材料、冷卻LED等方面。保持
    的頭像 發(fā)表于 10-31 21:36 ?942次閱讀
    石墨烯之父——安德烈·海姆,<b class='flag-5'>好奇心</b>驅(qū)使下的幽默大師和創(chuàng)新者