0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

概念化的簡單強(qiáng)化學(xué)習(xí)框架讓虛擬特技演員做出難度更高的動(dòng)作

MqC7_CAAI_1981 ? 來源:未知 ? 作者:李倩 ? 2018-04-17 11:22 ? 次閱讀

「運(yùn)動(dòng)控制問題已經(jīng)成為強(qiáng)化學(xué)習(xí)的基準(zhǔn),而深度強(qiáng)化學(xué)習(xí)的方法可以很高效的處理控制和運(yùn)動(dòng)等問題。然而,使用深度強(qiáng)化學(xué)習(xí)訓(xùn)練的目標(biāo)對(duì)象也經(jīng)常會(huì)出現(xiàn)不自然動(dòng)作、異常抖動(dòng)、步伐不對(duì)稱以及四肢過度擺動(dòng)等問題。我們可以將我們的虛擬人物訓(xùn)練的行為表現(xiàn)更加自然嗎?」

伯克利 BAIR 實(shí)驗(yàn)室介紹了他們對(duì)于運(yùn)動(dòng)建模的最新研究成果,他們使用動(dòng)作捕捉片段訓(xùn)練自己的模型。訓(xùn)練中著力減小跟蹤誤差并采用提前終止的方法來優(yōu)化訓(xùn)練結(jié)果。訓(xùn)練模型最終表現(xiàn)優(yōu)秀。 詳情介紹如下。

虛擬特技演員

我們從計(jì)算機(jī)圖形學(xué)研究中獲得了啟發(fā)。在這一領(lǐng)域中基于自然動(dòng)作的人體仿真模擬已經(jīng)存在大量的工作,相關(guān)研究已經(jīng)進(jìn)行了很多年。由于電影視覺效果以及游戲?qū)τ趧?dòng)作質(zhì)量要求很高,多年下來,基于豐富的肢體動(dòng)作動(dòng)畫已經(jīng)開發(fā)相應(yīng)控制器,這個(gè)控制器可以生成大量針對(duì)不同任務(wù)和對(duì)象的魯棒性好又自然的動(dòng)作。這種方法會(huì)利用人類洞察力去合并特定任務(wù)的控制結(jié)構(gòu),最終會(huì)對(duì)訓(xùn)練對(duì)象所產(chǎn)生的動(dòng)作有很強(qiáng)的歸納偏向。這種做法會(huì)讓控制器更加適應(yīng)特定的訓(xùn)練對(duì)象和任務(wù)。比如被設(shè)計(jì)去生成行走動(dòng)作的控制器可能會(huì)因?yàn)槿狈θ祟惗床炝Χ鵁o法生成更有技巧性的動(dòng)作。

在本研究中,我們將利用兩個(gè)領(lǐng)域的綜合優(yōu)勢,在使用深度學(xué)習(xí)模型的同時(shí)也生成自然的動(dòng)作,這動(dòng)作質(zhì)量足以匹敵計(jì)算機(jī)圖形學(xué)當(dāng)前最先進(jìn)的全身動(dòng)作模擬。我們提出了一個(gè)概念化的簡單強(qiáng)化學(xué)習(xí)框架,這個(gè)框架讓模擬對(duì)象通過學(xué)習(xí)樣例動(dòng)作剪輯來做出難度更高的動(dòng)作,其中樣例動(dòng)作來自于人類動(dòng)作捕捉。給出一個(gè)技巧的展示,例如旋踢或者后空翻,我們的訓(xùn)練對(duì)象在仿真中會(huì)以穩(wěn)健的策略去模仿這一動(dòng)作。我們的策略所生成的動(dòng)作與動(dòng)作捕捉幾乎沒有區(qū)別。

動(dòng)作模擬

在大多數(shù)強(qiáng)化學(xué)習(xí)基準(zhǔn)中,模擬對(duì)象都使用簡單的模型,這些模型只有一些對(duì)真實(shí)動(dòng)作進(jìn)行粗糙模仿的動(dòng)作。因此,訓(xùn)練對(duì)象也容易學(xué)習(xí)其中的特異動(dòng)作從而產(chǎn)生現(xiàn)實(shí)世界根本不會(huì)有的行為。故該模型利用的現(xiàn)實(shí)生物力學(xué)模型越真實(shí),就會(huì)產(chǎn)生越多的自然行為。但建設(shè)高保真的模型非常具有挑戰(zhàn)性,且即使在該模型下也有可能會(huì)生成不自然行為。

另一種策略就是數(shù)據(jù)驅(qū)動(dòng)方式,即通過人類動(dòng)作捕捉來生成自然動(dòng)作樣例。訓(xùn)練對(duì)象就可以通過模仿樣例動(dòng)作來產(chǎn)生更加自然的行為。通過模仿運(yùn)動(dòng)樣例進(jìn)行仿真的方式在計(jì)算機(jī)動(dòng)畫制作中存在了很久,最近開始在制作中引入深度強(qiáng)化學(xué)習(xí)。結(jié)果顯示訓(xùn)練對(duì)象動(dòng)作的確更加自然,然而這離實(shí)現(xiàn)多動(dòng)作仿真還有很長一段距離。

在本研究中,我們將使用動(dòng)作模仿任務(wù)來訓(xùn)練模型,我們的訓(xùn)練目標(biāo)就是訓(xùn)練對(duì)象最終可以復(fù)現(xiàn)一個(gè)給定的參考動(dòng)作。參考動(dòng)作是以一系列目標(biāo)姿勢表示的(q_0,q_1,…,q_T),其中 q_t 就是目標(biāo)在t時(shí)刻的姿勢。獎(jiǎng)勵(lì)函數(shù)旨在縮小目標(biāo)姿勢 q^_t 與訓(xùn)練對(duì)象姿勢 q_t 之間的方差。

雖然在運(yùn)動(dòng)模仿上應(yīng)用了更復(fù)雜的方法,但我們發(fā)現(xiàn)簡單的縮小跟蹤誤差(以及兩個(gè)額外的視角的誤差)表現(xiàn)的出人意料的好。這個(gè)策略是通過訓(xùn)練使用PPO算法優(yōu)化過的目標(biāo)實(shí)現(xiàn)的。

利用這個(gè)框架,我們可以開發(fā)出包含大量高挑戰(zhàn)性技巧(運(yùn)動(dòng),雜技,武術(shù),舞蹈)的策略。

接著我們比較了現(xiàn)有方法和之前用來模仿動(dòng)作捕捉剪輯的方法(IGAL)。結(jié)果顯示我們的方法更加簡單,且更好的復(fù)現(xiàn)了參考動(dòng)作。由此得到的策略規(guī)避了很多深度強(qiáng)化學(xué)習(xí)方法的弊端,可以使得訓(xùn)練對(duì)象的像人一樣行動(dòng)流暢。

Insights

參考狀態(tài)初始化

假設(shè)虛擬對(duì)象正準(zhǔn)備做后空翻,它怎樣才能知道在半空做一個(gè)完整翻轉(zhuǎn)可以獲得高獎(jiǎng)勵(lì)呢?由于大多強(qiáng)化學(xué)習(xí)方法是可回溯的,他們只觀察已訪問到的狀態(tài)的獎(jiǎng)勵(lì)。在后空翻這個(gè)實(shí)驗(yàn)中,虛擬對(duì)象必須在知道翻轉(zhuǎn)中的這些狀態(tài)會(huì)獲得高獎(jiǎng)勵(lì)之前去觀察后空翻的運(yùn)動(dòng)軌跡。但是因?yàn)楹罂辗瓕?duì)于起始和落地的條件非常敏感,所以虛擬對(duì)象不太可能在隨機(jī)嘗試中劃出一條成功的翻轉(zhuǎn)軌跡。為了給虛擬對(duì)象提示,我們會(huì)把它初始化為參考動(dòng)作的隨機(jī)采樣狀態(tài)。所以,虛擬對(duì)象有時(shí)從地面開始,有時(shí)從翻轉(zhuǎn)的中間狀態(tài)開始。這樣就可以讓虛擬對(duì)象在不知道怎么達(dá)到某些狀態(tài)之前就知道哪些狀態(tài)可以獲得高獎(jiǎng)勵(lì)。

下圖就是是否使用RSI訓(xùn)練的策略之間的差別,在訓(xùn)練之前,虛擬對(duì)象都會(huì)被初始化至一個(gè)特定的狀態(tài)。結(jié)果顯示,未使用RSI訓(xùn)練的對(duì)象沒有學(xué)會(huì)后空翻只學(xué)會(huì)了向后跳。

提前終止

提前終止對(duì)于強(qiáng)化學(xué)習(xí)研究者來說很重要,他經(jīng)常被用來提升模仿效率。當(dāng)虛擬對(duì)象處于一種無法成功的狀態(tài)時(shí),就可以提前終止了,以免繼續(xù)模仿。這里我們證明了提前終止對(duì)結(jié)果有很重要的影響。我們依舊考慮后空翻這一動(dòng)作,在訓(xùn)練的開始階段,策略非常糟糕,而虛擬對(duì)象基本上是不停的失敗。當(dāng)它摔倒后就極難恢復(fù)到之前的狀態(tài)。首次試驗(yàn)成敗基本由樣本決定,所以虛擬對(duì)象大多數(shù)時(shí)間都是在地上徒勞掙扎。其他的方法論也曾經(jīng)遭遇過這樣的不平衡問題,比如監(jiān)督學(xué)習(xí)。當(dāng)虛擬對(duì)象進(jìn)入無用狀態(tài)時(shí),就可以終結(jié)這次訓(xùn)練來緩解這個(gè)問題。ET結(jié)合RSI就可以保證數(shù)據(jù)集中的大部分樣本是接近參考軌跡的。沒有ET,虛擬對(duì)象就學(xué)不會(huì)空翻,而只會(huì)摔倒然后在地上嘗試表演這一動(dòng)作。

其他成果

通過給模型輸入不同參考動(dòng)作,模擬對(duì)象最終可以學(xué)會(huì)24中技巧。

除了模仿動(dòng)作捕捉片段之外,我們還可以讓虛擬對(duì)象執(zhí)行其他任務(wù)。比如提一個(gè)隨機(jī)放置的目標(biāo),或者向某個(gè)目標(biāo)扔球。

我們還訓(xùn)練的 Atlas 機(jī)器人去模仿人類動(dòng)作捕捉的剪輯。盡管 Atlas 擁有與人不同的形態(tài)和質(zhì)量分布,但它依舊可以復(fù)現(xiàn)目標(biāo)動(dòng)作。該策略不僅可以模仿參考動(dòng)作,還可以在模仿過程中抵抗異常擾動(dòng)。

如果沒有動(dòng)作捕捉剪輯怎么辦?假設(shè)我們要做霸王龍仿真,由于我們無法獲得霸王龍的的動(dòng)作捕捉影像,我們可以請(qǐng)一個(gè)畫家去畫一些動(dòng)作,然后用使用畫作來訓(xùn)練策略。

為什么只模仿霸王龍呢?我們還可以試試獅子

還有龍

最終結(jié)論是一個(gè)簡單的方法卻取得了很好的結(jié)果。通過縮小跟蹤誤差,我們就可以訓(xùn)練處針對(duì)不同對(duì)象和技巧的策略。我們希望我們的工作可以幫助虛擬對(duì)象和機(jī)器人習(xí)得更多的動(dòng)態(tài)運(yùn)動(dòng)技巧。探索通過更常見的資源(如視頻)來學(xué)會(huì)動(dòng)作模仿是一項(xiàng)激動(dòng)人心的工作。這樣我們就可以克服一些沒法進(jìn)行動(dòng)作捕捉的場景,比如針對(duì)某些動(dòng)物或雜亂的環(huán)境動(dòng)作捕捉很難實(shí)現(xiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    211

    文章

    28423

    瀏覽量

    207135
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    47282

    瀏覽量

    238534
  • 計(jì)算機(jī)圖形
    +關(guān)注

    關(guān)注

    0

    文章

    11

    瀏覽量

    6528

原文標(biāo)題:學(xué)界 | 伯克利 DeepMimic:虛擬特技演員的基本修養(yǎng)

文章出處:【微信號(hào):CAAI-1981,微信公眾號(hào):中國人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    反向強(qiáng)化學(xué)習(xí)的思路

    強(qiáng)化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    一:深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)時(shí)間地點(diǎn):1 月 15日— 1 月18 日二:深度強(qiáng)化學(xué)習(xí)核心技術(shù)實(shí)戰(zhàn)時(shí)間地點(diǎn): 1 月 27 日— 1 月30 日(第一天報(bào)到 授課三天;提前環(huán)境部署 電腦
    發(fā)表于 01-10 13:42

    將深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

    深度強(qiáng)化學(xué)習(xí)DRL自提出以來, 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo,將深度強(qiáng)化學(xué)習(xí)DRL成推上新的熱點(diǎn)和高度,成為人工智能歷史上一個(gè)新的里程碑。因此,深
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    簡單隨機(jī)搜索:無模型強(qiáng)化學(xué)習(xí)的高效途徑

    讓我們?cè)?b class='flag-5'>強(qiáng)化學(xué)習(xí)社區(qū)感興趣的問題上應(yīng)用隨機(jī)搜索。深度強(qiáng)化學(xué)習(xí)領(lǐng)域一直把大量時(shí)間和精力用于由OpenAI維護(hù)的、基于MuJoCo模擬器的一套基準(zhǔn)測試中。這里,最優(yōu)控制問題指的是一個(gè)有腿機(jī)器人在一個(gè)
    的頭像 發(fā)表于 04-01 09:35 ?4427次閱讀
    <b class='flag-5'>簡單</b>隨機(jī)搜索:無模型<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>的高效途徑

    人工智能機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎(jiǎng)勵(lì)信號(hào)(強(qiáng)化信號(hào))函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督
    發(fā)表于 05-30 06:53 ?1415次閱讀

    什么是強(qiáng)化學(xué)習(xí)?純強(qiáng)化學(xué)習(xí)有意義嗎?強(qiáng)化學(xué)習(xí)有什么的致命缺陷?

    強(qiáng)化學(xué)習(xí)是人工智能基本的子領(lǐng)域之一,在強(qiáng)化學(xué)習(xí)框架中,智能體通過與環(huán)境互動(dòng),來學(xué)習(xí)采取何種動(dòng)作能使其在給定環(huán)境中的長期獎(jiǎng)勵(lì)最大化,就像在上
    的頭像 發(fā)表于 07-15 10:56 ?1.8w次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?純<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有意義嗎?<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有什么的致命缺陷?

    谷歌推出新的基于Tensorflow的強(qiáng)化學(xué)習(xí)框架,稱為Dopamine

    強(qiáng)化學(xué)習(xí)(RL)研究在過去幾年取得了許多重大進(jìn)展。強(qiáng)化學(xué)習(xí)的進(jìn)步使得 AI 智能體能夠在一些游戲上超過人類,值得關(guān)注的例子包括 DeepMind 攻破 Atari 游戲的 DQN,在圍棋中獲得矚目的 AlphaGo 和 AlphaGo Zero,以及在 Dota2 對(duì)戰(zhàn)人
    的頭像 發(fā)表于 08-31 09:20 ?3697次閱讀

    機(jī)器學(xué)習(xí)中的無模型強(qiáng)化學(xué)習(xí)算法及研究綜述

    模型強(qiáng)化學(xué)習(xí)(Mode- based reinforcement Lear-ning)和無模型強(qiáng)化學(xué)習(xí)( Model- ree reirη forcement Learning)。模型
    發(fā)表于 04-08 11:41 ?11次下載
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中的無模型<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法及研究綜述

    模型深度強(qiáng)化學(xué)習(xí)應(yīng)用研究綜述

    深度強(qiáng)化學(xué)習(xí)(DRL)作為機(jī)器學(xué)習(xí)的重要分攴,在 Alphago擊敗人類后受到了廣泛關(guān)注。DRL以種試錯(cuò)機(jī)制與環(huán)境進(jìn)行交互,并通過最大化累積獎(jiǎng)賞最終得到最優(yōu)策略。強(qiáng)化學(xué)習(xí)可分為無模型強(qiáng)化學(xué)習(xí)
    發(fā)表于 04-12 11:01 ?9次下載
    模型<b class='flag-5'>化</b>深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>應(yīng)用研究綜述

    基于深度強(qiáng)化學(xué)習(xí)的路口單交叉信號(hào)控制

    利用深度強(qiáng)化學(xué)習(xí)技術(shù)實(shí)現(xiàn)路口信號(hào)控制是智能交通領(lǐng)域的硏究熱點(diǎn)?,F(xiàn)有硏究大多利用強(qiáng)化學(xué)習(xí)來全面刻畫交通狀態(tài)以及設(shè)計(jì)有效強(qiáng)化學(xué)習(xí)算法以解決信號(hào)配時(shí)問題,但這些研究往往忽略了信號(hào)燈狀態(tài)對(duì)動(dòng)作
    發(fā)表于 04-23 15:30 ?21次下載
    基于深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>的路口單交叉信號(hào)控制

    虛擬乒乓球手的強(qiáng)化學(xué)習(xí)模仿訓(xùn)練方法

    根據(jù)來球起點(diǎn)位置與初始速度生成球拍的有效擊球軌跡;進(jìn)而以球拍軌跡約束虛擬球員的持拍手腕關(guān)節(jié),采取逆向運(yùn)動(dòng)學(xué)與強(qiáng)化學(xué)習(xí)相結(jié)合的方法估計(jì)出球拍擊球時(shí)虛擬球手的擊球動(dòng)作,得到能用合理姿態(tài)進(jìn)行
    發(fā)表于 05-12 14:55 ?12次下載

    基于強(qiáng)化學(xué)習(xí)虛擬場景角色乒乓球訓(xùn)練

    基于強(qiáng)化學(xué)習(xí)虛擬場景角色乒乓球訓(xùn)練
    發(fā)表于 06-27 11:34 ?62次下載

    強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和6種基本算法解釋

    來源:DeepHubIMBA強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí)和概念簡介(無模型、在線學(xué)習(xí)、離線強(qiáng)化學(xué)習(xí)等)機(jī)器學(xué)習(xí)(ML)分為三個(gè)分支:監(jiān)督
    的頭像 發(fā)表于 01-05 14:54 ?970次閱讀
    <b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>的基礎(chǔ)知識(shí)和6種基本算法解釋

    什么是強(qiáng)化學(xué)習(xí)

    的AlphaStar,他們都是強(qiáng)化學(xué)習(xí)模型。諸如此類的模型還有 AlphaGo Zero 等。 強(qiáng)化學(xué)習(xí)的原理非常簡單,它非常像心理學(xué)中新行為主義派的斯金納發(fā)現(xiàn)的操作性條件反射。 操作性條件反射是什么?當(dāng)年斯金納做了一個(gè)箱子,進(jìn)
    的頭像 發(fā)表于 10-30 11:36 ?4102次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    的計(jì)算圖和自動(dòng)微分功能,非常適合實(shí)現(xiàn)復(fù)雜的強(qiáng)化學(xué)習(xí)算法。 1. 環(huán)境(Environment) 在強(qiáng)化學(xué)習(xí)中,環(huán)境是一個(gè)抽象的概念,它定義了智能體(agent)可以執(zhí)行的動(dòng)作(acti
    的頭像 發(fā)表于 11-05 17:34 ?298次閱讀