0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ICLR 2019論文解讀:深度學(xué)習(xí)應(yīng)用于復(fù)雜系統(tǒng)控制

時(shí)光流逝最終成了回憶 ? 來源:未知 ? 作者:電子發(fā)燒友 ? 2019-01-10 14:53 ? 次閱讀

引言

20世紀(jì),控制論、系統(tǒng)論、信息論,對(duì)工業(yè)產(chǎn)生了顛覆性的影響。繼2011年深度學(xué)習(xí)在物體檢測(cè)上超越傳統(tǒng)方法以來,深度學(xué)習(xí)在識(shí)別傳感(包含語音識(shí)別、物體識(shí)別),自然語言處理領(lǐng)域里產(chǎn)生了顛覆性的影響。最近在信息論里,深度學(xué)習(xí)也產(chǎn)生了重要影響。使用深度學(xué)習(xí)可以對(duì)不同形式編碼的信息進(jìn)行自動(dòng)解碼。如今,深度學(xué)習(xí)再次影響控制論,傳統(tǒng)控制論往往是模型驅(qū)動(dòng)算法,需要設(shè)計(jì)復(fù)雜的模型和控制方案,而以數(shù)據(jù)驅(qū)動(dòng)為核心的深度學(xué)習(xí)用作控制領(lǐng)域的春天即將到來,這將推動(dòng)數(shù)十萬億的工業(yè)、服務(wù)業(yè)的進(jìn)一步升級(jí)。通過深度學(xué)習(xí)控制,可以讓機(jī)器人,能源,交通等行業(yè)效率顯著提升。例如,使用深度學(xué)習(xí)進(jìn)行智能樓宇控制,可以節(jié)約大樓20%的能耗,傳統(tǒng)的控制需要多名專家2年的時(shí)間建立一個(gè)樓宇模型,深度學(xué)習(xí)可以利用樓宇歷史數(shù)據(jù)在一天內(nèi)得到超越傳統(tǒng)方法的模型;在機(jī)器人控制和強(qiáng)化學(xué)習(xí)領(lǐng)域里,相比傳統(tǒng)控制方法,本文提出的方法可以節(jié)約80%以上的運(yùn)算時(shí)間并且提升10%以上的控制準(zhǔn)確度。

深度學(xué)習(xí)控制行業(yè)剛剛興起,還有很多的問題沒有解決,還需要很多的理論突破。近期,華盛頓大學(xué)研究組在ICLR2019發(fā)表了一篇深度學(xué)習(xí)控制的最新成果[1],這是第一次將深度學(xué)習(xí)與凸優(yōu)化理論結(jié)合應(yīng)用到最優(yōu)控制理論中,在從理論層面保證模型達(dá)到全局最優(yōu)解的同時(shí),大幅提升了復(fù)雜系統(tǒng)控制的效率和準(zhǔn)確度。該論文在公開評(píng)審中獲得了6/7/8的評(píng)分,在所有1449submissions中得分位列前90位(top6%)。在這里,論文的兩位作者將親自為我們解讀其中的核心思想。

論文地址:https://openreview.net/forum?id=H1MW72AcK7?eId=HylsgDCzeV

機(jī)器學(xué)習(xí)/強(qiáng)化學(xué)習(xí)與控制

自動(dòng)控制與機(jī)器學(xué)習(xí)作為兩個(gè)擁有深厚歷史的學(xué)科,已經(jīng)發(fā)展了數(shù)十年,并建立了各自較為完善的學(xué)科體系。在自動(dòng)控制中的重要一環(huán),是首先根據(jù)歷史數(shù)據(jù)對(duì)控制系統(tǒng)進(jìn)行輸入-輸出的端到端建模。目前廣泛使用的系統(tǒng)辨識(shí)(systemidentification)方法主要有兩種:一是使用線性/或分段線性模型來預(yù)測(cè)系統(tǒng)的(狀態(tài),控制變量)->(狀態(tài))關(guān)系。這樣做的好處是后續(xù)的優(yōu)化問題是線性優(yōu)化問題(linearprogramming)并可結(jié)合控制論中的線性二次型調(diào)節(jié)器LQR(LinearQuadraticRegulator)等控制模型,易于求解并實(shí)現(xiàn)閉環(huán)最優(yōu)控制。同時(shí)控制論較為注重系統(tǒng)的理論性質(zhì)研究,如系統(tǒng)的李雅普諾夫穩(wěn)定性,以及基于卡爾曼濾波等的最優(yōu)狀態(tài)估計(jì)等。但是線性模型很難準(zhǔn)確地描述復(fù)雜系統(tǒng)的動(dòng)態(tài),且建模過程需要大量專家知識(shí)和調(diào)試。因?yàn)榇嬖趯?duì)物理對(duì)象的建模,這類方法也被稱為基于模型的控制和強(qiáng)化學(xué)習(xí)model-basedcontrol/reinforcementlearning。第二種方法是使用一些較為復(fù)雜的機(jī)器學(xué)習(xí)模型,比如深度神經(jīng)網(wǎng)絡(luò),支持向量機(jī)(SVM)等對(duì)物理系統(tǒng)進(jìn)行建模。相比線性模型,這些模型能夠更為準(zhǔn)確地捕捉系統(tǒng)輸入-輸出的動(dòng)態(tài)關(guān)系。而在一般的(深度)強(qiáng)化學(xué)習(xí)算法中,通常研究者也會(huì)訓(xùn)練一個(gè)端到端的算法,由狀態(tài)直接輸出控制。由于不存在物理建模過程,這類方法也一般被稱為model-freecontrol/reinforcementlearning。但是這些復(fù)雜模型給后續(xù)的優(yōu)化控制問題求解帶來了困難。我們都知道深度神經(jīng)網(wǎng)絡(luò),一般來說輸出對(duì)于輸入都是非凸的,包含很多局部最優(yōu)點(diǎn),所以在優(yōu)化過程中很容易陷入局部最優(yōu)情況。在對(duì)穩(wěn)定性要求很高的系統(tǒng)控制情境下(比如電力系統(tǒng)控制,航天系統(tǒng)以及工業(yè)控制),這種多個(gè)局部最優(yōu)解并且沒有全局最優(yōu)收斂性保證的情況是我們非常不愿看到的,也一定程度限制了目前深度模型在這些行業(yè)中的應(yīng)用。同時(shí),在當(dāng)前的深度強(qiáng)化學(xué)習(xí)研究中,盡管在多個(gè)應(yīng)用和領(lǐng)域中已經(jīng)取得行業(yè)領(lǐng)先的控制和優(yōu)化效果,但對(duì)模型的理論性質(zhì)尚缺乏研究,同時(shí)需要大量標(biāo)注的狀態(tài)和決策數(shù)據(jù)以泛化模型的表征能力和應(yīng)用場(chǎng)景[2](ICML2018tutorialandAnnualReviewofControl,RoboticsandAutonomousSystems,Recht,Berkeley)。

圖一:本文提出的輸入凸的神經(jīng)網(wǎng)絡(luò)的(a)動(dòng)態(tài)系統(tǒng)學(xué)習(xí)與(b)閉環(huán)控制過程。

在「Optimalcontrolvianeuralnetwork:aconvexapproach」一文中,作者提出了一種新的數(shù)據(jù)驅(qū)動(dòng)的控制方法。該篇文章作出了結(jié)合model-freecontrol與model-basedcontrol的一步重要嘗試。在訓(xùn)練過程中,我們用一個(gè)輸入凸(inputconvex)的神經(jīng)網(wǎng)絡(luò)來表達(dá)系統(tǒng)表達(dá)復(fù)雜的動(dòng)態(tài)特性;在控制與優(yōu)化過程中,我們就可以將訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)作為動(dòng)態(tài)系統(tǒng)的模型,求解凸優(yōu)化問題從而得到有最優(yōu)保證的控制輸入。算法思路詳見圖一

基于輸入凸神經(jīng)網(wǎng)絡(luò)的最優(yōu)控制框架

為了解決現(xiàn)有模型的不足,本文作者提出了一種新的系統(tǒng)辨識(shí)方法:基于輸入凸的神經(jīng)網(wǎng)絡(luò)的系統(tǒng)辨識(shí)。建立在之前InputConvexNeuralNetwork(ICNN)[3](ICML2017,Amosetal.,2017,CMU)的基礎(chǔ)上,本文作者提出一種新型的InputConvexRecurrentNeuralNetwork(ICRNN)用于具有時(shí)間關(guān)聯(lián)的動(dòng)態(tài)系統(tǒng)建模。不同于通用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸入凸的神經(jīng)網(wǎng)絡(luò)要求所有隱藏層之間的權(quán)重矩陣非負(fù),同時(shí)加入了對(duì)輸入向量的負(fù)映射以及輸入到隱藏層的直連層增加ICNN和ICRNN的表達(dá)能力。

作者在文章中理論證明了,輸入凸神經(jīng)網(wǎng)絡(luò)ICNN和ICRNN可以表示所有凸函數(shù)(Theorem1),并且其表達(dá)的效率比分段線性函數(shù)高指數(shù)級(jí)(Theorem2)。兩條性質(zhì)保證所提出的網(wǎng)絡(luò)架構(gòu)能夠很好地應(yīng)用于優(yōu)化與控制問題中用于對(duì)象建模與求解。

在使用輸入凸神經(jīng)網(wǎng)絡(luò)進(jìn)行系統(tǒng)建模后,作者將系統(tǒng)模型嵌入到模型預(yù)測(cè)控制(ModelPredictiveControl)框架中,用于求解最優(yōu)的系統(tǒng)控制值。因?yàn)槭褂昧溯斎胪股窠?jīng)網(wǎng)絡(luò),這里的MPC問題是一個(gè)凸優(yōu)化問題,使用經(jīng)典的梯度下降方法就可以保證我們找到最優(yōu)的控制策略。如果系統(tǒng)的狀態(tài)或者控制輸入包含約束條件(constraints),我們也可以使用投影梯度下降(ProjectedGradientMethod)或者內(nèi)點(diǎn)法進(jìn)行求解。這樣,使用ICNN對(duì)瞬態(tài)特性建模或使用ICRNN對(duì)時(shí)序過程建模并用于控制對(duì)輸入優(yōu)化求解,我們不僅能夠滿足控制論中對(duì)于最優(yōu)解的性質(zhì)的保證,同時(shí)也可以充分發(fā)揮深度模型的表征能力,即可作為一種適用于各領(lǐng)域的建模與控制方法。

圖3.基于ICNN的MuJoColocomotiontasks的控制結(jié)果。K=100,300,1000對(duì)應(yīng)[4]中基于模型的強(qiáng)化學(xué)習(xí)的算法設(shè)定,我們測(cè)試了在模型預(yù)測(cè)控制中,不同未來預(yù)測(cè)區(qū)間長(zhǎng)度下各任務(wù)的回報(bào)。

應(yīng)用一:機(jī)器人運(yùn)動(dòng)控制

作者首先將提出的深度學(xué)習(xí)控制框架應(yīng)用于機(jī)器人的控制,使用的是OpenAI中的MuJuCo機(jī)器人仿真平臺(tái)的四個(gè)前向運(yùn)動(dòng)任務(wù)。我們首先使用隨機(jī)采樣的機(jī)器人動(dòng)作和狀態(tài)的數(shù)據(jù)作為初始樣本訓(xùn)練一個(gè)ICNN網(wǎng)絡(luò),并結(jié)合DAGGER(AISTATS,Rossetal,2011,CMU)以在訓(xùn)練和控制過程中更好地探索和泛化。本文提出的方法相比目前的強(qiáng)化學(xué)習(xí)方法更加高效、準(zhǔn)確。同目前最好的基于模型的強(qiáng)化學(xué)習(xí)算法(model-basedRL)[4](2018ICRA,Nagabandietal.,2018,Berkeley)相比,本文提出的方法僅僅使用20%的運(yùn)算時(shí)間就可以達(dá)到比之前方法高10%的控制效果(圖3)。與無模型的深度強(qiáng)化學(xué)習(xí)算法如TRPO,DDPG往往超過10^6的樣本數(shù)量相比,我們的控制方法可以從10^4量級(jí)的樣本中學(xué)習(xí)到極為準(zhǔn)確的動(dòng)態(tài)模型并用于控制。同時(shí)我們還可以將該方法得到控制結(jié)果作為初始控制策略,然后隨著機(jī)器人在環(huán)境中收集更多的樣本,與無模型的強(qiáng)化學(xué)習(xí)方法(model-freeRL)結(jié)合,在動(dòng)態(tài)系統(tǒng)環(huán)境下實(shí)現(xiàn)更好的控制效果。

應(yīng)用二:大樓的能源管理

同時(shí),本文作者也將提出的深度學(xué)習(xí)控制框架應(yīng)用于智能樓宇的供熱通風(fēng)與空氣調(diào)節(jié)系統(tǒng)(HVAC)控制。我們通過建筑能耗仿真軟件EnergyPlus得到一棟大樓的分時(shí)能耗數(shù)據(jù)及各個(gè)分區(qū)的傳感器數(shù)據(jù),并使用ICRNN建立樓宇輸入特征(如室內(nèi)溫度,人流量,空調(diào)設(shè)定溫度等)到輸出特征(如能耗)的動(dòng)態(tài)模型。在控制過程中,文章提出的模型可以非常方便地加入一系列約束,如溫度可調(diào)節(jié)范圍等。我們通過設(shè)計(jì)大樓在一定時(shí)間段內(nèi)的溫度設(shè)置值,并滿足相應(yīng)約束的前提下,來最優(yōu)化樓宇的能耗。相比于傳統(tǒng)的線性模型以及控制方法,使用ICRNN的控制方法在保證房間溫度維持在[19,24]攝氏度區(qū)間內(nèi)的情況下,幫助大樓節(jié)約多于20%的能耗。在更大的溫度波動(dòng)區(qū)間內(nèi)([16,27]攝氏度),可以幫助建筑節(jié)約近40%能耗(圖4左)。同時(shí)相比于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型直接用于系統(tǒng)建模,基于ICRNN的控制方法由于有控制求解的最優(yōu)性保證,得到的溫度設(shè)定值更加的穩(wěn)定(圖4右中紅線為ICRNN控制溫度設(shè)置,綠線為普通神經(jīng)網(wǎng)絡(luò)控制溫度設(shè)置)。

目前,華盛頓大學(xué)的PaulAllenCenter電子工程與計(jì)算機(jī)大樓正在安裝相應(yīng)的傳感器,并計(jì)劃將該控制方案用于該建筑HAVC系統(tǒng)的實(shí)時(shí)控制。

隨著5G時(shí)代的到來與物聯(lián)網(wǎng)技術(shù)的進(jìn)一步發(fā)展,越來越多的物理系統(tǒng)中(電力,交通,航天,工業(yè)控制等)將會(huì)有更多的智能傳感器與數(shù)據(jù)流,本文提出的基于深度學(xué)習(xí)的控制方法也將會(huì)有更廣闊的應(yīng)用空間。

參考資料

[1]ChenYize*,YuanyuanShi*,andBaosenZhang."OptimalControlViaNeuralNetworks:AConvexApproach."ToAppearinInternationalConferenceonLearningRepresentations(ICLR),2019

[2]Recht,Benjamin."Atourofreinforcementlearning:Theviewfromcontinuouscontrol."AnnualReviewofControl,Robotics,andAutonomousSystems(2018).

[3]Amos,Brandon,LeiXu,andJ.ZicoKolter."Inputconvexneuralnetworks."InternationalConferenceonMachineLearning(ICML),2017

[4]Nagabandi,Anusha,etal."Neuralnetworkdynamicsformodel-baseddeepreinforcementlearningwithmodel-freefine-tuning."2018IEEEInternationalConferenceonRoboticsandAutomation(ICRA).IEEE,2018.

[5]Ross,Stéphane,GeoffreyGordon,andDrewBagnell."Areductionofimitationlearningandstructuredpredictiontono-regretonlinelearning."Proceedingsofthefourteenthinternationalconferenceonartificialintelligenceandstatistics.2011.

本文來源:機(jī)器之心

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    畢業(yè)論文_無線表決系統(tǒng)控制端設(shè)計(jì)

    畢業(yè)論文_無線表決系統(tǒng)控制端設(shè)計(jì)
    發(fā)表于 08-16 14:00

    如何實(shí)現(xiàn)多點(diǎn)位、復(fù)雜功能的PLC系統(tǒng)控制目標(biāo)?

    ?;?VxWorks 操作系統(tǒng),提出了基于VxWorks 的嵌入式實(shí)時(shí)PLC 設(shè)計(jì)的方法與應(yīng)用,利用VxWorks 的開放性、模塊化和可擴(kuò)展性的系統(tǒng)結(jié)構(gòu)特性以及多線程/多任務(wù)的系統(tǒng)環(huán)境來達(dá)到高實(shí)時(shí)要求的PLC
    發(fā)表于 07-30 07:14

    基于深度學(xué)習(xí)和3D圖像處理的精密加工件外觀缺陷檢測(cè)系統(tǒng)

    點(diǎn)四:豐富的2D/3D圖像軟硬件接口,配合被測(cè)金屬五金加工件的形狀、輪廓精度擁有豐富的成像硬件、運(yùn)動(dòng)機(jī)構(gòu)以及執(zhí)行機(jī)構(gòu)的選擇。 基于深度學(xué)習(xí)和3D圖像處理的精密加工件外觀缺陷檢測(cè)系統(tǒng)已經(jīng)應(yīng)用于
    發(fā)表于 03-08 13:59

    什么是深度學(xué)習(xí)?使用FPGA進(jìn)行深度學(xué)習(xí)的好處?

    延遲,這對(duì)深度學(xué)習(xí)推理也很有效。上述圖像識(shí)別的深度學(xué)習(xí)有望應(yīng)用于自動(dòng)駕駛等對(duì)精度要求較高的系統(tǒng)
    發(fā)表于 02-17 16:56

    系統(tǒng)控制(SysCtl)

    LPC1138系統(tǒng)控制(SysCtl)。
    發(fā)表于 01-13 16:34 ?9次下載

    系統(tǒng)控制和中斷

    系統(tǒng)控制和中斷。
    發(fā)表于 04-29 17:57 ?124次下載

    ICLR 2019在官網(wǎng)公布了最佳論文獎(jiǎng)!

    今年 ICLR 共接收 1578 篇投稿,相較去年 981 篇有了很大的增加,錄用結(jié)果如下:1.5% 錄用為 oral 論文(24 篇)、30.2% 錄用為 poster 論文(476 篇),58%
    的頭像 發(fā)表于 05-07 09:00 ?4440次閱讀
    <b class='flag-5'>ICLR</b> <b class='flag-5'>2019</b>在官網(wǎng)公布了最佳<b class='flag-5'>論文</b>獎(jiǎng)!

    ICLR 2019最佳論文日前揭曉 微軟與麻省等獲最佳論文獎(jiǎng)項(xiàng)

    ICLR 2019最佳論文日前揭曉。來自微軟研究院、加拿大蒙特利爾學(xué)習(xí)算法研究所 (MILA)和來自麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(MIT CSAIL)奪得本次大會(huì)的最佳
    的頭像 發(fā)表于 05-11 09:10 ?2376次閱讀

    Chip Huyen總結(jié)ICLR 2019年的8大趨勢(shì) RNN正在失去研究的光芒

    ICLR 2019過去有幾天了,作為今年上半年表現(xiàn)最為亮眼的人工智能頂會(huì)共收到1591篇論文,錄取率為31.7%。
    的頭像 發(fā)表于 05-19 10:01 ?3283次閱讀
    Chip Huyen總結(jié)<b class='flag-5'>ICLR</b> <b class='flag-5'>2019</b>年的8大趨勢(shì) RNN正在失去研究的光芒

    深度強(qiáng)化學(xué)習(xí)給推薦系統(tǒng)以及CTR預(yù)估工業(yè)界帶來的最新進(jìn)展

    所以,Google這兩篇強(qiáng)化學(xué)習(xí)應(yīng)用于YouTube推薦論文的出現(xiàn)給大家?guī)砹吮容^振奮人心的希望。首先,論文中宣稱效果對(duì)比使用的Baseline就是YouTube推薦線上最新的
    的頭像 發(fā)表于 07-18 11:11 ?8713次閱讀
    <b class='flag-5'>深度</b>強(qiáng)化<b class='flag-5'>學(xué)習(xí)</b>給推薦<b class='flag-5'>系統(tǒng)</b>以及CTR預(yù)估工業(yè)界帶來的最新進(jìn)展

    機(jī)器人控制研究獲進(jìn)展 能應(yīng)用于真實(shí)的復(fù)雜移動(dòng)機(jī)械臂控制

    近日,中國(guó)科學(xué)院沈陽(yáng)自動(dòng)化研究所與英國(guó)愛丁堡機(jī)器人中心合作研究取得新進(jìn)展,提出了一種在動(dòng)態(tài)、非結(jié)構(gòu)環(huán)境下基于深度強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)械臂自主作業(yè)方法,將最新的人工智能學(xué)習(xí)理論成功應(yīng)用于真實(shí)
    發(fā)表于 03-17 10:38 ?671次閱讀

    自監(jiān)督學(xué)習(xí)與Transformer相關(guān)論文

    將在明年5月4日舉行,目前,本次大會(huì)投稿已經(jīng)結(jié)束,最后共有3013篇論文提交。ICLR 采用公開評(píng)審機(jī)制,任何人都可以提前看到這些論文。 為了分析最新研究動(dòng)向,我們精選了涵蓋自監(jiān)督學(xué)習(xí)
    的頭像 發(fā)表于 11-02 15:50 ?2693次閱讀
    自監(jiān)督<b class='flag-5'>學(xué)習(xí)</b>與Transformer相關(guān)<b class='flag-5'>論文</b>

    基于深度學(xué)習(xí)的評(píng)論文本推薦方法

    傳統(tǒng)推薦系統(tǒng)依賴人工進(jìn)行規(guī)則設(shè)計(jì)和特征提取,對(duì)評(píng)論文本內(nèi)容的特征和隱信息的提取能力有限。針對(duì)該問題,融合注意力機(jī)制并基于深度學(xué)習(xí)對(duì)推薦系統(tǒng)進(jìn)
    發(fā)表于 06-09 15:39 ?5次下載

    基于評(píng)分矩陣與評(píng)論文本的深度學(xué)習(xí)模型

    基于評(píng)分矩陣與評(píng)論文本的深度學(xué)習(xí)模型
    發(fā)表于 06-24 11:20 ?58次下載

    深度學(xué)習(xí)頂級(jí)學(xué)術(shù)會(huì)議ICLR 2023錄用結(jié)果已經(jīng)公布!

    在機(jī)器學(xué)習(xí)社區(qū)中,ICLR 是較為「年輕」的學(xué)術(shù)會(huì)議,它由深度學(xué)習(xí)巨頭、圖靈獎(jiǎng)獲得者 Yoshua Bengio 和 Yann LeCun 牽頭舉辦,2013 年才剛剛舉辦第一屆。不過
    的頭像 發(fā)表于 02-07 11:10 ?1623次閱讀