0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

在強(qiáng)化學(xué)習(xí)的表示空間中引入規(guī)劃能力的思路

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-09-06 08:46 ? 次閱讀

編者按:Microsoft Semantic Machines資深研究科學(xué)家、UC Berkeley計(jì)算機(jī)科學(xué)博士Jacob Andreas以控制問題為例,討論了在強(qiáng)化學(xué)習(xí)的表示空間中引入規(guī)劃能力的思路。

神經(jīng)網(wǎng)絡(luò)參數(shù)智能體(例如Atari玩家智能體)看起來普遍缺乏規(guī)劃的能力。蒙特卡洛反應(yīng)式智能體(例如原始深度Q學(xué)習(xí)者)明顯是個(gè)例子,甚至于具備一定隱藏狀態(tài)的智能體(比如NIPS的MemN2N論文)看上去也是這樣。盡管如此,類似規(guī)劃的行為已成功應(yīng)用于其他深度模型,尤其是在文本生成上——集束解碼,乃至集束訓(xùn)練,看上去對機(jī)器翻譯和圖像描述而言不可或缺。當(dāng)然,對處理并非玩具級別的控制問題的人而言,真實(shí)的規(guī)劃問題無處不在。

任務(wù)和運(yùn)動規(guī)劃是一個(gè)好例子。有一次我們需要求解一個(gè)持續(xù)控制問題,但是直接求解(通過通用控制策略或類似TrajOpt的過程)太難了。因此我們轉(zhuǎn)而嘗試高度簡化、手工指定的問題編碼——也許是丟棄了幾何信息的STRIPS表示。我們解決了(相對簡單的)STRIPS規(guī)劃問題,接著將其投影回運(yùn)動規(guī)劃空間。該投影可能不對應(yīng)可行的策略?。ǖ覀兿胱屧谌蝿?wù)空間中可行的策略在運(yùn)動空間中盡量可行。)我們持續(xù)搜索計(jì)劃空間,直到找到在運(yùn)動空間中同時(shí)奏效的解。

其實(shí)這不過是一個(gè)由粗到細(xì)的剪枝計(jì)劃——我們需要可以丟棄明顯不可行的規(guī)劃的低成本方法,這樣我們可以將全部計(jì)算資源集中到確實(shí)需要模擬的情形上。

如圖所示:

上圖中,r為表示函數(shù),c為成本函數(shù)(我們可以將其視為用0-1表示可行性判斷的函數(shù)),k為“表示成本”。我們想要確保r在運(yùn)動成本和任務(wù)成本上“接近同構(gòu)”,也就是c(s1, s2) ≈ k(r(s1), r(s2))。

就STRIPS版本而言,假定我們手工給出r和k。不過,我們可以學(xué)習(xí)一個(gè)比STRIPS更好的求解任務(wù)和運(yùn)動規(guī)劃問題的表示嗎?

從規(guī)劃樣本中學(xué)習(xí)

首先假定我們已經(jīng)有了訓(xùn)練數(shù)據(jù),數(shù)據(jù)為成功的運(yùn)動空間路點(diǎn)序列(s1, s2, …, s*)。那么我們可以直接最小化以下目標(biāo)函數(shù):

最容易的情形是表示空間(r的對應(yīng)域)為?d;這時(shí)我們可以操作d以控制表示質(zhì)量和搜索表示空間的成本之間的平衡。

問題:如果我們只觀測到常數(shù)c(如果只看到好的解,可能會出現(xiàn)這種情形),那就沒有壓力學(xué)習(xí)不那么微不足道的k。所以我們也需要不成功的嘗試。

解碼

給定訓(xùn)練好的模型,我們通過以下步驟求解新實(shí)例:

從表示空間中取樣一個(gè)滿足r(s*) ≈ rn的成本加權(quán)路徑(r1,r2, ..., rn)。

將每個(gè)表示空間轉(zhuǎn)換r1→ r2映射到運(yùn)動空間轉(zhuǎn)換s1→ s2,且滿足r(s2) ≈ r2。(如果r是可微的,那么這很容易表達(dá)為一個(gè)優(yōu)化問題,否則需要麻煩一點(diǎn)表達(dá)為策略。)

重復(fù)上述過程,直到其中之一的運(yùn)動空間解可行。

在涉及計(jì)算路徑的每一個(gè)步驟(不管是在r-空間還是在s-空間),我們都可以使用范圍廣泛的技術(shù),包括基于優(yōu)化的技術(shù)(TrajOpt),基于搜索的技術(shù)(RRT,不過大概不適用于高維情形),或者通過學(xué)習(xí)以目標(biāo)狀態(tài)為參數(shù)的策略。

直接從任務(wù)反饋學(xué)習(xí)

如果我們沒有良好的軌跡可供學(xué)習(xí),怎么辦?只需修改之前的上面兩步——從隨機(jī)初始值開始,展開包含預(yù)測的r和s序列,接著生成由預(yù)測值r和s構(gòu)成的序列,然后將其視作監(jiān)督,同樣更新k以反映觀測到的成本。

提示性搜索

到目前為止,我們假設(shè)可以直接暴力搜索表示空間,直到我們接近目標(biāo)。沒有機(jī)制強(qiáng)制表示空間的接近程度同樣接近于運(yùn)動空間(除了r可能帶來的平滑性)。我們可能想要增加額外的限制,如果根據(jù)定義ri距離rn不止3跳,那么||ri? rn||>||ri+1?rn||。這立刻提供了在表示空間中搜索的便利的啟發(fā)式算法。

我們也可以在這一階段引入輔助信息——也許是以語言或視頻形式提供的意見。(接著我們需要學(xué)習(xí)另一個(gè)從意見空間到表示空間的映射。)

模塊化

在STRIPS領(lǐng)域,定義一些不同的原語(如“移動”、“抓取”)是很常見的做法。我們也許想給智能體提供類似的不同策略的離散清單,清單上的策略列出了轉(zhuǎn)換成本k1, k2, …。現(xiàn)在搜索問題同時(shí)牽涉(連續(xù)地)選擇一組點(diǎn),和(離散地)選擇用于在點(diǎn)之間移動的成本函數(shù)/運(yùn)動原語。這些原語對應(yīng)的運(yùn)動可能受限于配置空間中某個(gè)(手工選?。┑淖恿餍危ū热?,僅僅移動末端執(zhí)行器,僅僅移動第一個(gè)關(guān)節(jié))。

感謝Dylan Hadfield-Menell關(guān)于任務(wù)和運(yùn)動規(guī)劃的討論。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:強(qiáng)化學(xué)習(xí)表示空間中的規(guī)劃

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    反向強(qiáng)化學(xué)習(xí)思路

    強(qiáng)化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    一:深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)時(shí)間地點(diǎn):1 月 15日— 1 月18 日二:深度強(qiáng)化學(xué)習(xí)核心技術(shù)實(shí)戰(zhàn)時(shí)間地點(diǎn): 1 月 27 日— 1 月30 日(第一天報(bào)到 授課三天;提前環(huán)境部署 電腦
    發(fā)表于 01-10 13:42

    基于強(qiáng)化學(xué)習(xí)的飛行自動駕駛儀設(shè)計(jì)

    針對強(qiáng)化學(xué)習(xí)連續(xù)狀態(tài)連續(xù)動作空間中的維度災(zāi)難問題,利用BP神經(jīng)網(wǎng)絡(luò)算法作為值函數(shù)逼近策略,設(shè)計(jì)了自動駕駛儀。并引入動作池機(jī)制,有效避免飛行仿真中危險(xiǎn)動作的發(fā)生。首先
    發(fā)表于 06-25 16:27 ?27次下載
    基于<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>的飛行自動駕駛儀設(shè)計(jì)

    強(qiáng)化學(xué)習(xí)RoboCup帶球任務(wù)中的應(yīng)用劉飛

    強(qiáng)化學(xué)習(xí)RoboCup帶球任務(wù)中的應(yīng)用_劉飛
    發(fā)表于 03-14 08:00 ?0次下載

    將深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

    深度強(qiáng)化學(xué)習(xí)DRL自提出以來, 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo,將深度強(qiáng)化學(xué)習(xí)DRL成推上新的熱點(diǎn)和高度,成為人工智能歷史上一個(gè)新的里程碑。因此,深
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    基于分層強(qiáng)化學(xué)習(xí)的多Agent路徑規(guī)劃

    策略可獲得的最大回報(bào);其次,利用分層強(qiáng)化學(xué)習(xí)方法的無環(huán)境模型學(xué)習(xí)以及局部更新能力將策略更新過程限制規(guī)模較小的局部空間或維度較低的高層
    發(fā)表于 12-27 14:32 ?0次下載
    基于分層<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>的多Agent路徑<b class='flag-5'>規(guī)劃</b>

    人工智能機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎(jiǎng)勵(lì)信號(強(qiáng)化信號)函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督
    發(fā)表于 05-30 06:53 ?1420次閱讀

    強(qiáng)化學(xué)習(xí)自動駕駛的應(yīng)用

    自動駕駛汽車首先是人工智能問題,而強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)重要分支,是多學(xué)科多領(lǐng)域交叉的一個(gè)產(chǎn)物。今天人工智能頭條給大家介紹強(qiáng)化學(xué)習(xí)自動駕駛的一個(gè)應(yīng)用案例,無需3D地圖也無需規(guī)則,讓
    的頭像 發(fā)表于 07-10 09:00 ?4989次閱讀
    <b class='flag-5'>強(qiáng)化學(xué)習(xí)</b><b class='flag-5'>在</b>自動駕駛的應(yīng)用

    什么是強(qiáng)化學(xué)習(xí)?純強(qiáng)化學(xué)習(xí)有意義嗎?強(qiáng)化學(xué)習(xí)有什么的致命缺陷?

    強(qiáng)化學(xué)習(xí)是人工智能基本的子領(lǐng)域之一,強(qiáng)化學(xué)習(xí)的框架中,智能體通過與環(huán)境互動,來學(xué)習(xí)采取何種動作能使其在給定環(huán)境中的長期獎(jiǎng)勵(lì)最大化,就像在上述的棋盤游戲寓言中,你通過與棋盤的互動來
    的頭像 發(fā)表于 07-15 10:56 ?1.8w次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?純<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有意義嗎?<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有什么的致命缺陷?

    量化深度強(qiáng)化學(xué)習(xí)算法的泛化能力

    OpenAI 近期發(fā)布了一個(gè)新的訓(xùn)練環(huán)境 CoinRun,它提供了一個(gè)度量智能體將其學(xué)習(xí)經(jīng)驗(yàn)活學(xué)活用到新情況的能力指標(biāo),而且還可以解決一項(xiàng)長期存在于強(qiáng)化學(xué)習(xí)中的疑難問題——即使是廣受贊譽(yù)的強(qiáng)化
    的頭像 發(fā)表于 01-01 09:22 ?2403次閱讀
    量化深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法的泛化<b class='flag-5'>能力</b>

    一文詳談機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)屬于機(jī)器學(xué)習(xí)中的一個(gè)子集,它使代理能夠理解特定環(huán)境中執(zhí)行特定操作的相應(yīng)結(jié)果。目前,相當(dāng)一部分機(jī)器人就在使用強(qiáng)化學(xué)習(xí)掌握種種新能力。
    發(fā)表于 11-06 15:33 ?1756次閱讀

    83篇文獻(xiàn)、萬字總結(jié)強(qiáng)化學(xué)習(xí)之路

    深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)相結(jié)合的產(chǎn)物,它集成了深度學(xué)習(xí)視覺等感知問題上強(qiáng)大的理解能力,
    的頭像 發(fā)表于 12-10 18:32 ?590次閱讀

    強(qiáng)化學(xué)習(xí)智能對話上的應(yīng)用介紹

    本文主要介紹深度強(qiáng)化學(xué)習(xí)在任務(wù)型對話上的應(yīng)用,兩者的結(jié)合點(diǎn)主要是將深度強(qiáng)化學(xué)習(xí)應(yīng)用于任務(wù)型對話的策略學(xué)習(xí)上來源:騰訊技術(shù)工程微信號
    的頭像 發(fā)表于 12-10 19:02 ?1057次閱讀

    《自動化學(xué)報(bào)》—多Agent深度強(qiáng)化學(xué)習(xí)綜述

    突破.由于融合了深度學(xué)習(xí)強(qiáng)大的表征能力強(qiáng)化學(xué)習(xí)有效的策略搜索能力,深度強(qiáng)化學(xué)習(xí)已經(jīng)成為實(shí)現(xiàn)人工智能頗有前景的
    發(fā)表于 01-18 10:08 ?1631次閱讀
    《自動<b class='flag-5'>化學(xué)</b>報(bào)》—多Agent深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>綜述

    強(qiáng)化學(xué)習(xí)與智能駕駛決策規(guī)劃

    一套泛化能力強(qiáng)的決策規(guī)劃機(jī)制是智能駕駛目前面臨的難點(diǎn)之一。強(qiáng)化學(xué)習(xí)是一種從經(jīng)驗(yàn)中總結(jié)的學(xué)習(xí)方式,并從長遠(yuǎn)的角度出發(fā),尋找解決問題的最優(yōu)方案。近些年來,
    的頭像 發(fā)表于 02-08 14:05 ?1877次閱讀