0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于目標(biāo)圖像的視覺(jué)強(qiáng)化學(xué)習(xí)算法,讓機(jī)器人可以同時(shí)學(xué)習(xí)多個(gè)任務(wù)

nlfO_thejiangme ? 來(lái)源:未知 ? 作者:李倩 ? 2018-09-24 10:11 ? 次閱讀

目前的深度強(qiáng)化學(xué)習(xí)需要人為地為每一個(gè)任務(wù)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),當(dāng)涉及復(fù)雜系統(tǒng)時(shí)需要很多的人力成本和復(fù)雜的工作。如果需要完成更大范圍內(nèi)的更多工作,就需要對(duì)每一個(gè)新任務(wù)進(jìn)行重復(fù)的訓(xùn)練。為了提高學(xué)習(xí)的效率,伯克利的研究者們提出了一種可以同時(shí)對(duì)多個(gè)不同任務(wù)進(jìn)行學(xué)習(xí)的算法,無(wú)需人工干預(yù)。

這一算法可以自動(dòng)從圖像中抽取目標(biāo)并學(xué)習(xí)如何達(dá)到目標(biāo),并實(shí)現(xiàn)推物體、抓握和開(kāi)門等一系列特殊的任務(wù)。機(jī)器人可以學(xué)會(huì)自己表示目標(biāo)、學(xué)習(xí)如何達(dá)到目標(biāo),而一切的輸入僅僅是來(lái)自相機(jī)的RGB圖像。

· 目標(biāo)條件下的強(qiáng)化學(xué)習(xí)

如何描述真實(shí)世界的狀態(tài)和期望的目標(biāo)是我們需要考慮的首要問(wèn)題,但對(duì)于機(jī)器人來(lái)說(shuō)枚舉出所有需要注意的物體是不現(xiàn)實(shí)的,現(xiàn)實(shí)世界中的物體及其數(shù)量變化多端、如果要檢測(cè)他們就需要額外的視覺(jué)檢測(cè)工作。

那么該如何解決這一問(wèn)題呢?研究人員提出了一種直接利用傳感器信息來(lái)操作的方法,利用機(jī)器人相機(jī)的輸出來(lái)表達(dá)世界的狀態(tài),同時(shí)利用期望狀態(tài)的圖像作為目標(biāo)輸入到機(jī)器人中。對(duì)于新的任務(wù),只需要為模型提供新的目標(biāo)圖像即可。這種方法同時(shí)能拓展到多種復(fù)雜的任務(wù),例如可以通過(guò)語(yǔ)言和描述來(lái)表達(dá)狀態(tài)/目標(biāo)。(或者可以利用先前提出的方法來(lái)優(yōu)化目標(biāo):傳送門>>UC Berkeley提出新的時(shí)域差分模型策略:從無(wú)模型到基于模型的深度強(qiáng)化學(xué)習(xí))

強(qiáng)化學(xué)習(xí)是一種訓(xùn)練主體最大化獎(jiǎng)勵(lì)的學(xué)習(xí)機(jī)制,對(duì)于目標(biāo)條件下的強(qiáng)化學(xué)習(xí)來(lái)說(shuō)可以將獎(jiǎng)勵(lì)函數(shù)設(shè)為當(dāng)前狀態(tài)與目標(biāo)狀態(tài)之間距離的反比函數(shù),那么最大化獎(jiǎng)勵(lì)就對(duì)應(yīng)著最小化與目標(biāo)函數(shù)的距離。

我們可以通過(guò)一個(gè)基于目標(biāo)條件下的Q函數(shù)來(lái)訓(xùn)練策略實(shí)現(xiàn)最大化獎(jiǎng)勵(lì)?;谀繕?biāo)條件的Q函數(shù)Q(s,a,g)描述的是在當(dāng)前狀態(tài)和目標(biāo)下,當(dāng)前的行為將產(chǎn)生對(duì)主體怎樣的結(jié)果(獎(jiǎng)勵(lì))?也就是說(shuō)在給定狀態(tài)s、目標(biāo)g的前提下,我們可以通過(guò)優(yōu)化行為a來(lái)實(shí)現(xiàn)獎(jiǎng)勵(lì)最大化:

π(s,g) = maxaQ(s,a,g)

基于Q函數(shù)來(lái)選擇最優(yōu)的行為,可以得到最大化獎(jiǎng)勵(lì)和的策略(在這個(gè)例子中便是達(dá)到各種不同的目標(biāo))。

Q學(xué)習(xí)得以廣泛應(yīng)用的原因在于它可以不基于策略而僅僅只依賴與s,a,g。那么意味著訓(xùn)練任意策略所收集的數(shù)據(jù)都可以用來(lái)在多個(gè)任務(wù)上進(jìn)行訓(xùn)練?;谀繕?biāo)條件的Q學(xué)習(xí)算法如簡(jiǎn)圖所示:

但上述方法的主要局限在于數(shù)據(jù)收集。如果能人工生成數(shù)據(jù),理論上就可以學(xué)習(xí)解決不同的任務(wù)而無(wú)需與真實(shí)世界進(jìn)行交互。但遺憾的是在真實(shí)世界中學(xué)習(xí)精確的模型十分困難,所以通常依賴于采樣來(lái)獲取狀態(tài)s--行為a--下一個(gè)狀態(tài)s'的訓(xùn)練數(shù)據(jù)。

但我們換個(gè)角度來(lái)看,如果可以表達(dá)出獎(jiǎng)勵(lì)函數(shù)r(s,g), 有一種可以生成目標(biāo)并計(jì)算獎(jiǎng)勵(lì)的機(jī)制,我們就可以可回溯的重新標(biāo)記目標(biāo),重新計(jì)算獎(jiǎng)勵(lì)。這樣的話就可以利用(s,a,s') 數(shù)據(jù)生成大量的人工數(shù)據(jù),這一個(gè)過(guò)程如下圖所示:

最美妙的事情在于可以同時(shí)生成多個(gè)目標(biāo)和獎(jiǎng)勵(lì)函數(shù),這就意味著可以學(xué)習(xí)達(dá)到多個(gè)目標(biāo)而無(wú)需采集額外的數(shù)據(jù),這一簡(jiǎn)單的改進(jìn)極大的加速了學(xué)習(xí)過(guò)程。

上面的方法主要基于兩個(gè)假設(shè):1).知道獎(jiǎng)勵(lì)函數(shù)的表達(dá)并可以進(jìn)行操作;2).可以得到目標(biāo)的采樣分布p(g).基于前人的工作,可以方便的設(shè)計(jì)出目標(biāo)分布p(g)和獎(jiǎng)勵(lì)函數(shù)。

但對(duì)于基于視覺(jué)的任務(wù)來(lái)說(shuō)會(huì)出現(xiàn)兩個(gè)問(wèn)題:1).由于基于像素的距離可能沒(méi)有實(shí)際意義,模型不知道該使用哪一個(gè)獎(jiǎng)勵(lì)函數(shù);2).由于任務(wù)的目標(biāo)是圖像的形式,需要知道目標(biāo)圖像的分布p(g),但人工設(shè)計(jì)目標(biāo)圖像的分布是一個(gè)很復(fù)雜的任務(wù)。那么研究人員們期望最好的情況就是,主體可以自動(dòng)地想象出它的目標(biāo),并學(xué)習(xí)出如何達(dá)到這一目標(biāo)。

·基于假想目標(biāo)的強(qiáng)化學(xué)習(xí)

為了解決這一問(wèn)題,研究人員通過(guò)學(xué)習(xí)出圖像的表示并利用這些表示來(lái)實(shí)現(xiàn)條件Q學(xué)習(xí),而不是直接利用圖像本身來(lái)進(jìn)行強(qiáng)化學(xué)習(xí)。那么這時(shí)候關(guān)鍵的問(wèn)題就被轉(zhuǎn)換為:這一從圖像中學(xué)習(xí)的表達(dá)應(yīng)該滿足什么樣的特點(diǎn)?為了計(jì)算出語(yǔ)義的獎(jiǎng)勵(lì),需要一種可以捕捉圖像中變量潛在因素的表達(dá),同時(shí)這種表達(dá)需要很便捷地生成新的目標(biāo)。

試驗(yàn)中研究人員通過(guò)變分自編碼器(VAE)來(lái)從圖像中獲取滿足這些條件地表示。這種生成模型可以將高維空間中圖像轉(zhuǎn)換到低維度地隱空間中去(或者進(jìn)行相反地變換)。得到的模型可以將圖像轉(zhuǎn)換到隱空間中并抽取其中的變量特征,這與人類在真實(shí)世界中描述目標(biāo)的抽象過(guò)程很類似。在給定當(dāng)前圖像x和目標(biāo)圖像xg后,模型可將他們轉(zhuǎn)換為隱空間中對(duì)應(yīng)的隱變量z和zg,此時(shí)就可以利用隱變量來(lái)為強(qiáng)化學(xué)習(xí)算法描述系統(tǒng)狀態(tài)和期望目標(biāo)了。在低維的隱空間中學(xué)習(xí)Q函數(shù)和策略比直接使用圖像進(jìn)行訓(xùn)練要快很多。

將當(dāng)前圖像和目標(biāo)圖像編碼到隱空間中,并利用其中的距離來(lái)計(jì)算獎(jiǎng)勵(lì)。

這同時(shí)解決了如何計(jì)算強(qiáng)化學(xué)習(xí)中計(jì)算獎(jiǎng)勵(lì)的問(wèn)題。相較于利用像素誤差,可以使用隱空間中與目標(biāo)的距離來(lái)訓(xùn)練主體。在最大化抵達(dá)目標(biāo)概率的同時(shí)這一方法可以給出更有效的學(xué)習(xí)信號(hào)

這一模型的重要性在于主體可以容易的在隱空間中生成目標(biāo)。(這一生成模型使得隱空間中的采樣是可以回溯的:僅僅從VAE的先驗(yàn)中采樣)其原因在于:為主體提供了可以設(shè)置自身目標(biāo)的機(jī)制,主體從生成模型的隱變量中采樣并嘗試抵達(dá)隱空間中的目標(biāo);同時(shí)為重采樣機(jī)制也可用于前述的重標(biāo)記過(guò)程。由于訓(xùn)練的生成模型可以將真實(shí)圖像編碼為先驗(yàn),從先驗(yàn)的隱變量采樣也對(duì)應(yīng)著有意義的隱目標(biāo)。

主體可以通過(guò)模型生成自己的目標(biāo),用于探索和目標(biāo)重標(biāo)記。

綜上所述,對(duì)于輸入圖像的隱空間表示1).捕捉了場(chǎng)景中的隱含因素;2).為優(yōu)化提供了有效的距離度量;3).提供了有效的目標(biāo)采樣機(jī)制,使得這一方法可以直接利用像素輸入來(lái)實(shí)現(xiàn)基于假想的強(qiáng)化學(xué)習(xí)算法( Reinforcement Learning with imagined Goals ,RIG)

· 實(shí)驗(yàn)

下面研究人員將通過(guò)實(shí)驗(yàn)來(lái)證明這一方法是能簡(jiǎn)單高效地在合理的時(shí)間內(nèi)在真實(shí)世界中訓(xùn)練出機(jī)器人策略。實(shí)驗(yàn)分為兩個(gè)任務(wù),分別是基于目標(biāo)圖像直到機(jī)械臂運(yùn)動(dòng)到人為指定地位置和將目標(biāo)推到期望的位置。實(shí)驗(yàn)中僅僅通過(guò)84*84的RGB圖像來(lái)訓(xùn)練,而沒(méi)有關(guān)節(jié)角度和位置信息。

機(jī)器人首先學(xué)習(xí)到如何在隱含空間內(nèi)學(xué)習(xí)出自己的目標(biāo),這一階段可以利用解碼器來(lái)可視化機(jī)器人為自己假想出來(lái)的目標(biāo)。下圖上半部分顯示了機(jī)器人“想象”出的目標(biāo)位置,而下面圖則是實(shí)際運(yùn)行狀況。

通過(guò)設(shè)置自身的目標(biāo),機(jī)器人就可以在沒(méi)有人類的干預(yù)下自動(dòng)的訓(xùn)練嘗試以抵達(dá)目標(biāo)。需要執(zhí)行特定的任務(wù)時(shí),才需要人為的給定目標(biāo)圖像。由于機(jī)器人以及多次練習(xí)過(guò)如何抵達(dá)目標(biāo),在下面的圖中我們可以看到它已經(jīng)不需要額外的訓(xùn)練便可以抵達(dá)新的目標(biāo)。

下圖是第二個(gè)任務(wù),利用RIG來(lái)訓(xùn)練機(jī)械臂將物體推到指定位置。其中左邊是實(shí)驗(yàn)裝置、右上是目標(biāo)圖像、右下是機(jī)器人推動(dòng)的過(guò)程。

通過(guò)圖像訓(xùn)練策略使得機(jī)器人推物體的任務(wù)變得容易多了。只需要在上一個(gè)任務(wù)的基礎(chǔ)上加上一張桌子、一個(gè)物體、稍微調(diào)整相機(jī)就可以開(kāi)始訓(xùn)練了。雖然模型的輸入是圖像,但這一算法只需要一個(gè)小時(shí)的時(shí)間就可以訓(xùn)練完成抵達(dá)特定位置的任務(wù)、4.5小時(shí)就可以實(shí)現(xiàn)將物體推到特定位置的任務(wù)(需要與環(huán)境交互),同時(shí)達(dá)到了比較好的精度。

很多實(shí)際使用的強(qiáng)化學(xué)習(xí)算法需要目標(biāo)位置的基準(zhǔn)狀態(tài),然而這卻需要引入額外的傳感器或訓(xùn)練目標(biāo)檢測(cè)算法來(lái)實(shí)現(xiàn) 。與之相比,這里提出的算法僅僅依賴于RGB相機(jī),并可以直接輸入圖像完成訓(xùn)練過(guò)程。

· 未來(lái)研究方向

通過(guò)前文描述的方法,可以利用直接輸入的圖片訓(xùn)練出真實(shí)世界的機(jī)器人策略,簡(jiǎn)單高效地實(shí)現(xiàn)不同的任務(wù)?;谶@一結(jié)果,可以開(kāi)啟很多令人激動(dòng)地研究領(lǐng)域。這一研究不僅限于利用圖像作為強(qiáng)化學(xué)習(xí)的目標(biāo),同時(shí)還可以廣泛應(yīng)用于語(yǔ)言和描述等不同的目標(biāo)表達(dá)中。同時(shí),可以探索如何利用更本質(zhì)的方式來(lái)選擇目標(biāo)以實(shí)現(xiàn)更好的自動(dòng)學(xué)習(xí)。如果使用內(nèi)在動(dòng)機(jī)的概念與上文提出的策略結(jié)合,可以引導(dǎo)策略進(jìn)行更快的學(xué)習(xí)。

另一個(gè)可能方向是訓(xùn)練模型能夠處理動(dòng)力學(xué)的情況。對(duì)環(huán)境動(dòng)力學(xué)進(jìn)行編碼可以使得隱含空間更加適合強(qiáng)化學(xué)習(xí),加速學(xué)習(xí)的過(guò)程。最后,有很多機(jī)器人任務(wù)的狀態(tài)很難被傳感器所捕捉,但利用基于假想目標(biāo)的學(xué)習(xí)就可以處理諸如形變物體的抓取、目標(biāo)數(shù)量變化這樣復(fù)雜的問(wèn)題。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    212

    文章

    28925

    瀏覽量

    209690
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4646

    瀏覽量

    93732
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    269

    瀏覽量

    11368

原文標(biāo)題:伯克利研究人員提出基于目標(biāo)圖像的視覺(jué)強(qiáng)化學(xué)習(xí)算法,讓機(jī)器人可以同時(shí)學(xué)習(xí)多個(gè)任務(wù)

文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人的基礎(chǔ)模塊

    ,一次生成深度信息。 自主機(jī)器人定位任務(wù)的本質(zhì)是對(duì)機(jī)器人自身狀態(tài)的估計(jì)問(wèn)題,包括位置,朝向,速度等問(wèn)題。 路徑規(guī)劃旨在找到從起點(diǎn)到目標(biāo)區(qū)域的路徑,確保路徑的可行性和最優(yōu)性。路徑規(guī)劃方法
    發(fā)表于 01-04 19:22

    基于深度學(xué)習(xí)技術(shù)的智能機(jī)器人

    ”特征的算法,同時(shí)根據(jù)學(xué)習(xí)到的“經(jīng)驗(yàn)數(shù)據(jù)”,從而能把圖片中的貓都識(shí)別出來(lái)。基于“深度學(xué)習(xí)”的智能分類 智能機(jī)器人就是通過(guò)搭載“深度
    發(fā)表于 05-31 09:36

    機(jī)器人視覺(jué)系統(tǒng)組成及定位算法分析

    1.機(jī)器人視覺(jué)機(jī)器人研究的核心就是:導(dǎo)航定位、路徑規(guī)劃、避障、多傳感器融合。定位技術(shù)有幾種,不關(guān)心,只關(guān)心視覺(jué)的。視覺(jué)技術(shù)用到“眼睛”
    發(fā)表于 06-08 08:30

    機(jī)器人視覺(jué)機(jī)器視覺(jué)有什么不一樣?

    的知識(shí),來(lái)判定這些零件是不是不良品。某種程度上來(lái)說(shuō),你可以認(rèn)為機(jī)器視覺(jué)是計(jì)算機(jī)視覺(jué)的孩子,因?yàn)樗褂糜?jì)算機(jī)視覺(jué)
    發(fā)表于 08-28 10:48

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    內(nèi)容2:課程一: TensoRFlow入門到熟練:課程二:圖像分類:課程三:物體檢測(cè):課程四:人臉識(shí)別:課程五:算法實(shí)現(xiàn):1、卷積神經(jīng)網(wǎng)絡(luò)CNN2、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN3、強(qiáng)化學(xué)習(xí)DRL4、對(duì)抗性生成
    發(fā)表于 01-10 13:42

    四足機(jī)器人的機(jī)構(gòu)設(shè)計(jì)

    四足機(jī)器人屬于復(fù)雜機(jī)電系統(tǒng),需要綜合生物、機(jī)械、電子、控制等學(xué)科內(nèi)容,具體涉及仿生機(jī)構(gòu)設(shè)計(jì)、靈巧運(yùn)動(dòng)機(jī)構(gòu)設(shè)計(jì)、高性能驅(qū)動(dòng)器制造,行走穩(wěn)定性控制、強(qiáng)化學(xué)習(xí)等在內(nèi)的多個(gè)研究方向。其中,機(jī)構(gòu)設(shè)計(jì)是保障四足
    發(fā)表于 09-15 06:54

    基于LCS和LS-SVM的多機(jī)器人強(qiáng)化學(xué)習(xí)

    本文提出了一種LCS和LS-SVM相結(jié)合的多機(jī)器人強(qiáng)化學(xué)習(xí)方法,LS-SVM獲得的最優(yōu)學(xué)習(xí)策略作為L(zhǎng)CS的初始規(guī)則集。LCS通過(guò)與環(huán)境的交互,能更快發(fā)現(xiàn)指導(dǎo)多機(jī)器人
    發(fā)表于 01-09 14:43 ?0次下載

    【重磅】DeepMind發(fā)布通用強(qiáng)化學(xué)習(xí)新范式,自主機(jī)器人可學(xué)會(huì)任何任務(wù)

    SAC-X是一種通用的強(qiáng)化學(xué)習(xí)方法,未來(lái)可以應(yīng)用于機(jī)器人以外的更廣泛領(lǐng)域
    的頭像 發(fā)表于 03-19 14:45 ?1995次閱讀

    基于強(qiáng)化學(xué)習(xí)的MADDPG算法原理及實(shí)現(xiàn)

    之前接觸的強(qiáng)化學(xué)習(xí)算法都是單個(gè)智能體的強(qiáng)化學(xué)習(xí)算法,但是也有很多重要的應(yīng)用場(chǎng)景牽涉到多個(gè)智能體之間的交互。
    的頭像 發(fā)表于 11-02 16:18 ?2.2w次閱讀

    一文詳談機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)屬于機(jī)器學(xué)習(xí)中的一個(gè)子集,它使代理能夠理解在特定環(huán)境中執(zhí)行特定操作的相應(yīng)結(jié)果。目前,相當(dāng)一部分機(jī)器人就在使用強(qiáng)化學(xué)習(xí)掌握種種新能力。
    發(fā)表于 11-06 15:33 ?1819次閱讀

    一種基于多智能體協(xié)同強(qiáng)化學(xué)習(xí)的多目標(biāo)追蹤方法

    矩陣對(duì)其進(jìn)行求解得到多個(gè)追蹤智能體的任務(wù)分配情況,并以縮短目標(biāo)智能體的追蹤路徑為優(yōu)化目標(biāo)進(jìn)行任務(wù)分工,
    發(fā)表于 03-17 11:08 ?20次下載
    一種基于多智能體協(xié)同<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>的多<b class='flag-5'>目標(biāo)</b>追蹤方法

    機(jī)器學(xué)習(xí)中的無(wú)模型強(qiáng)化學(xué)習(xí)算法及研究綜述

    強(qiáng)化學(xué)習(xí)( Reinforcement learning,RL)作為機(jī)器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)并列的第三種
    發(fā)表于 04-08 11:41 ?11次下載
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>中的無(wú)模型<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b><b class='flag-5'>算法</b>及研究綜述

    當(dāng)機(jī)器人遇見(jiàn)強(qiáng)化學(xué)習(xí),會(huì)碰出怎樣的火花?

    當(dāng)機(jī)器人遇見(jiàn)強(qiáng)化學(xué)習(xí),會(huì)碰出怎樣的火花? 一名叫 Cassie 的機(jī)器人,給出了生動(dòng)演繹。 最近,24 歲的中國(guó)南昌小伙李鐘毓和其所在團(tuán)隊(duì),用強(qiáng)化學(xué)習(xí)教 Cassie 走路 ,目前它已
    的頭像 發(fā)表于 04-13 09:35 ?2543次閱讀
    當(dāng)<b class='flag-5'>機(jī)器人</b>遇見(jiàn)<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>,會(huì)碰出怎樣的火花?

    基于深度學(xué)習(xí)機(jī)器人目標(biāo)識(shí)別和跟蹤

    機(jī)器人鄰域都有涉及。機(jī)器人視覺(jué)也是當(dāng)下研究生的一個(gè)大熱門,其包含機(jī)器人對(duì)目標(biāo)環(huán)境對(duì)象的視覺(jué)信息處
    的頭像 發(fā)表于 08-02 12:07 ?1757次閱讀

    基于強(qiáng)化學(xué)習(xí)目標(biāo)檢測(cè)算法案例

    摘要:基于強(qiáng)化學(xué)習(xí)目標(biāo)檢測(cè)算法在檢測(cè)過(guò)程中通常采用預(yù)定義搜索行為,其產(chǎn)生的候選區(qū)域形狀和尺寸變化單一,導(dǎo)致目標(biāo)檢測(cè)精確度較低。為此,在基于深度強(qiáng)化
    發(fā)表于 07-19 14:35 ?0次下載