0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

伯克利那個(gè)會(huì)“18般武藝”的DeepMimic模型開(kāi)源了!

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-10-19 09:06 ? 次閱讀

還記得今年4月伯克利BAIR實(shí)驗(yàn)室發(fā)布的那個(gè)會(huì)“18般武藝”的DeepMimic模型嗎?他們使用強(qiáng)化學(xué)習(xí)技術(shù),用動(dòng)作捕捉片段訓(xùn)練模型,教會(huì)了AI智能體完成24種動(dòng)作,走路、跑步就不用說(shuō)了,還包括翻跟斗、側(cè)翻跳、投球、高踢腿等等高能動(dòng)作。

體會(huì)一下:

回旋踢

跑步

投球

訓(xùn)練每一種動(dòng)作都需要?jiǎng)幼鞑蹲胶蜕疃葟?qiáng)化學(xué)習(xí),而B(niǎo)AIR的研究者創(chuàng)造了一個(gè)全新的系統(tǒng),教會(huì)agent完成復(fù)雜、逼真的動(dòng)作任務(wù)。

作者Xue Bin Peng等人將這個(gè)系統(tǒng)命名為DeepMimic,比已有工作更進(jìn)一步的是,他們的目標(biāo)是在訓(xùn)練一個(gè)agent完成特定任務(wù)的前提下,使它的動(dòng)作更貼近真實(shí)。他們的論文發(fā)表在SIGGRAPH 2018。

除了人形機(jī)器人外,他們還訓(xùn)練了Atlas機(jī)器人、暴龍、龍等形態(tài)的agent。

Atlas機(jī)器人

整個(gè)DeepMimic所需要的input分為三部分:一個(gè)被稱(chēng)為Character的Agent模型;希望Agent學(xué)習(xí)的參考動(dòng)作(reference motion);希望Agent完成的任務(wù)(task)所定義的reward function。

訓(xùn)練之后會(huì)得到一個(gè)可以控制Agent同時(shí)滿(mǎn)足與參考動(dòng)作相似且可以完成任務(wù)的控制器

四種翻滾動(dòng)作

現(xiàn)在,DeepMimic的代碼、數(shù)據(jù)和訓(xùn)練策略已經(jīng)全部開(kāi)源,感興趣的讀者不妨試試拿來(lái)訓(xùn)練自己的“功夫小子”。

開(kāi)源代碼

SIGGRAPH 2018論文:“DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills”的代碼。這個(gè)框架使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練一個(gè)模擬人形智能體來(lái)模仿來(lái)自mocap數(shù)據(jù)的各種運(yùn)動(dòng)技能。

項(xiàng)目頁(yè)面:

https://xbpeng.github.io/projects/DeepMimic/index.html

C++:

Bullet 2.87 (https://github.com/bulletphysics/bullet3/releases)

Eigen (http://www.eigen.tuxfamily.org/index.php?title=Main_Page)

OpenGL >= 3.2

freeglut (http://freeglut.sourceforge.net/)

glew (http://glew.sourceforge.net/)

Python:

PyOpenGL (http://pyopengl.sourceforge.net/)

Tensorflow (https://www.tensorflow.org/)

MPI4Py (https://mpi4py.readthedocs.io/en/stable/install.html)

Misc:

SWIG (http://www.swig.org/)

MPI

Windows:https://docs.microsoft.com/en-us/message-passing-interface/microsoft-mpi

Linux:sudo apt install libopenmpi-dev

Build

模擬環(huán)境是用C++編寫(xiě)的,python包裝器使用SWIG構(gòu)建。要安裝python依賴(lài)項(xiàng),請(qǐng)運(yùn)行

pip install -r requirements.txt

請(qǐng)注意,必須在MPI4Py之前安裝MPI。

Windows

wrapper使用DeepMimicCore.sln構(gòu)建。

1. 從配置管理器中選擇x64配置。

2. 在DeepMimicCore的項(xiàng)目屬性下,修改要包含的其他包含目錄

Bullet源目錄

Eigen包括目錄

python包含目錄

3. 修改要指定的其他庫(kù)目錄

Bullet lib目錄

python lib目錄

使用Release_Swig配置構(gòu)建DeepMimicCore項(xiàng)目,這應(yīng)該在DeepMimicCore/. 中生成DeepMimicCore.py。

Linux

1. 通過(guò)指定以下內(nèi)容修改DeepMimicCore中的Makefile,

EIGEN_DIR:Eigen包含目錄

BULLET_INC_DIR:Bullet源目錄

PYTHON_INC:python包含目錄

PYTHON_LIB:python lib目錄

2. 建立wrapper,

make python

這應(yīng)該在DeepMimicCore/中生成DeepMimicCore.py

如何使用

一旦構(gòu)建了python wrapper,就可以使用Tensorflow完全在python中完成訓(xùn)練。DeepMimic.py運(yùn)行用于查看模擬的可視化工具。使用mpi_run.py完成訓(xùn)練,它使用MPI在多個(gè)進(jìn)程之間并行訓(xùn)練。

通過(guò)指定提供場(chǎng)景配置的參數(shù)文件來(lái)運(yùn)行DeepMimic.py。例如,

python DeepMimic.py --arg_file args/run_humanoid3d_spinkick_args.txt

將為“回旋踢”運(yùn)行一個(gè)預(yù)訓(xùn)練的policy。同樣的,

python DeepMimic.py --arg_file args/kin_char_args.txt

將加載并播放mocap片段。

要訓(xùn)練一個(gè)策略(policy),請(qǐng)通過(guò)指定參數(shù)文件和工作進(jìn)程數(shù)來(lái)運(yùn)行mpi_run.py。例如,

python mpi_run.py --arg_file args/train_humanoid3d_spinkick_args.txt --num_workers 4

將訓(xùn)練一個(gè)策略,使用4個(gè)workers進(jìn)行“回旋踢”。作為訓(xùn)練方案,它會(huì)定期打印統(tǒng)計(jì)數(shù)據(jù)并將其記錄到output/,以及最新策略的.ckpt。通常需要大約6千萬(wàn)個(gè)樣本來(lái)訓(xùn)練一個(gè)策略,而訓(xùn)練16個(gè)workers需要一天時(shí)間。16個(gè)workers可能是框架所能支持的最大workers數(shù)量。

args中已經(jīng)為不同的技能提供了許多參數(shù)文件。train_ [something] _args.txt文件是為mpi_run.py設(shè)置的,用于訓(xùn)練策略,并為DeepMimic.py設(shè)置run_ [something] _args.txt文件以運(yùn)行其中一個(gè)預(yù)訓(xùn)練策略。要運(yùn)行自己的策略,請(qǐng)使用run_ [something] _args.txt的文件之一,并指定要使用--model_file運(yùn)行的策略。確保引用的動(dòng)作--motion_file對(duì)應(yīng)于策略所訓(xùn)練的動(dòng)作,否則策略將無(wú)法正常運(yùn)行。

接口

右上角的圖顯示了價(jià)值函數(shù)的預(yù)測(cè)

單擊右鍵并拖動(dòng)將平移相機(jī)

單擊左鍵并拖動(dòng)將對(duì)特定位置處的角色施加力

滾輪會(huì)放大/縮小

按“r”將重置該episode

按'l'將重新加載參數(shù)文件并重建所有內(nèi)容

按'x'將使用隨機(jī)的框投向角色

按空格將暫停/恢復(fù)模擬

按’>'將逐步執(zhí)行模擬

Mocap Data

Mocap clips位于data/motions/中。要播放剪輯,首先修改args/kin_char_args.txt并指定要使用的文件--motion_file,然后運(yùn)行

python DeepMimic.py --arg_file args/kin_char_args.txt

動(dòng)作文件遵循JSON格式?!癓oop”字段指定運(yùn)動(dòng)是否是循環(huán)的。“wrap”指定一個(gè)循環(huán)運(yùn)動(dòng),該循環(huán)將在結(jié)束時(shí)回到起始點(diǎn),而“none”指定一旦運(yùn)動(dòng)結(jié)束就會(huì)停止的非循環(huán)運(yùn)動(dòng)?!癋rames”列表中的每個(gè)向量指定運(yùn)動(dòng)中的關(guān)鍵幀。每個(gè)框架具有以下格式:

位置以米為單位指定,球面關(guān)節(jié)的3D旋轉(zhuǎn)指定為四元數(shù)(w,x,y,z),轉(zhuǎn)動(dòng)關(guān)節(jié)(例如膝關(guān)節(jié)和肘關(guān)節(jié))的1維旋轉(zhuǎn)用弧度的標(biāo)量表示。根位置和旋轉(zhuǎn)在世界坐標(biāo)中,但所有其他關(guān)節(jié)旋轉(zhuǎn)都在關(guān)節(jié)的局部坐標(biāo)中。要使用你自己的動(dòng)作剪輯,請(qǐng)將其轉(zhuǎn)換為類(lèi)似格式的JSON文件。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    30898

    瀏覽量

    269125
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    150

    瀏覽量

    10580
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    266

    瀏覽量

    11256

原文標(biāo)題:強(qiáng)化學(xué)習(xí)練就18般武藝!伯克利開(kāi)源DeepMimic

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    UC伯克利教授Stuart Russell:人工智能基礎(chǔ)概念與34個(gè)誤區(qū)

    Russell是加州大學(xué)伯克利分校人工智能系統(tǒng)中心創(chuàng)始人兼計(jì)算機(jī)科學(xué)專(zhuān)業(yè)教授,同時(shí)還是人工智能領(lǐng)域里「標(biāo)準(zhǔn)教科書(shū)」《人工智能:一種現(xiàn)代方法》作者(谷歌研究主管Peter Norvig也是該書(shū)作者)。在這篇文章中,他以Q&A的方式講解了人工智能的未來(lái)以及常見(jiàn)的誤解。
    的頭像 發(fā)表于 07-04 09:41 ?5580次閱讀

    伯克利博士論文:DC-DC轉(zhuǎn)換器

    伯克利博士的論文,關(guān)于DC-DC轉(zhuǎn)換器的理解介紹和應(yīng)用分析。
    發(fā)表于 09-29 18:13 ?103次下載
    <b class='flag-5'>伯克利</b>博士論文:DC-DC轉(zhuǎn)換器

    美國(guó)勞倫斯伯克利國(guó)家實(shí)驗(yàn)室開(kāi)發(fā)出“病毒發(fā)電”元件

      美國(guó)勞倫斯伯克利國(guó)家實(shí)驗(yàn)室(LBNL)開(kāi)發(fā)出了利用病毒來(lái)發(fā)電的技術(shù),并在2012年5月13日發(fā)行的學(xué)術(shù)雜志《Nature Nanotechnology》上發(fā)表相關(guān)論文。
    的頭像 發(fā)表于 05-16 09:45 ?4505次閱讀

    美國(guó)加州大學(xué)伯克利分校模電資料

    美國(guó)加州大學(xué)伯克利分校模電資料,個(gè)人收集整理了很久的資料,大家根據(jù)自己情況,有選擇性的下載吧~
    發(fā)表于 10-28 09:19 ?0次下載

    伯克利(Berkeley)聯(lián)網(wǎng)程序代碼介紹

    本章介紹伯克利( B e r k e l e y )聯(lián)網(wǎng)程序代碼。開(kāi)始我們先看一段源代碼并介紹一些通篇要用的印刷約定。對(duì)各種不同代碼版本的簡(jiǎn)單歷史回顧讓我們可以看到本書(shū)中的源代碼處于什么位置。接下來(lái)
    發(fā)表于 05-09 14:33 ?0次下載

    伯克利分校和韓國(guó)KAIST先后公布柔性傳感器據(jù)說(shuō)能檢測(cè)血氧

    加利福尼亞大學(xué)伯克利分校開(kāi)發(fā)的一種柔性傳感器可以大面積獲取皮膚、組織和器官的血氧水平圖譜。這種傳感器通過(guò)在一種柔性材料上印刷紅色OLED、近紅外OLED和有機(jī)光電二極管的交替陣列制成。
    的頭像 發(fā)表于 11-24 09:47 ?4156次閱讀

    推特公開(kāi)宣布伯克利機(jī)器人學(xué)習(xí)實(shí)驗(yàn)室最新開(kāi)發(fā)的機(jī)器人BLUE

    ieter Abbeel 是領(lǐng)域內(nèi)著名的機(jī)器人學(xué)與機(jī)器學(xué)習(xí)專(zhuān)家,他目前是加州大學(xué)伯克利分校電子工程與計(jì)算機(jī)系教授、伯克利人工智能實(shí)驗(yàn)室(BAIR)聯(lián)合主任、伯克利機(jī)器人學(xué)習(xí)實(shí)驗(yàn)室(UC Berkeley's Robot Lear
    的頭像 發(fā)表于 04-13 11:09 ?4467次閱讀

    UC伯克利新機(jī)器人成果:靈活自由地使用工具

    之前我們剛剛介紹加州大學(xué)伯克利分校 Pieter Abbeel 教授領(lǐng)導(dǎo)伯克利機(jī)器人學(xué)習(xí)實(shí)驗(yàn)室(UC Be
    的頭像 發(fā)表于 04-15 09:03 ?2476次閱讀

    機(jī)器人遭綁架?一男子看不慣在伯克利街道上漫游的送貨機(jī)器人

    根據(jù)媒體報(bào)道,4月25日周四晚間,Kiwibot公司向伯克利警察局報(bào)案,指出他們價(jià)值 2500 美元的送貨機(jī)器人被偷,伯克利警察局局長(zhǎng) Peter Hong 表示,警方使用 GPS 追蹤機(jī)器人的位置,確定機(jī)器人被鎖在一輛汽車(chē)的后備廂里,隨即找到了車(chē)主。
    的頭像 發(fā)表于 05-07 18:09 ?2764次閱讀

    伯克利單腿跳機(jī)器人迎來(lái)新升級(jí) 即將在ICRA2019會(huì)議上亮相

    IEEE Spectrum上就有一篇最新進(jìn)展的介紹,在很多人的眼中,加州大學(xué)伯克利分校的Salto從2016年以來(lái)就是他們最喜歡的機(jī)器人之一,然后在后來(lái)的機(jī)器人技術(shù)突飛猛進(jìn)的幾年里Salto就開(kāi)始顯得有點(diǎn)過(guò)時(shí)。
    的頭像 發(fā)表于 05-23 15:59 ?2925次閱讀

    加州大學(xué)伯克利分校的團(tuán)隊(duì)給予跳躍機(jī)器人更高目標(biāo)

    美國(guó)加州大學(xué)伯克利分校的研究人員,研發(fā)出一款能不斷跳躍的機(jī)器人:Salto-1P。
    的頭像 發(fā)表于 06-13 17:52 ?3449次閱讀

    清華、伯克利聯(lián)手打造 成立RISC-V國(guó)際實(shí)驗(yàn)室

    圖靈獎(jiǎng)得主牽頭,清華伯克利聯(lián)手打造開(kāi)源芯片,以深圳為根節(jié)點(diǎn),全面提升 RISC-V 生態(tài)系統(tǒng)至最先進(jìn)水平、成為一家以技術(shù)成果轉(zhuǎn)移為主要使命的非營(yíng)利組織,并產(chǎn)出免受專(zhuān)利訴訟的工業(yè)級(jí)知識(shí)產(chǎn)權(quán)成果。
    的頭像 發(fā)表于 06-16 10:16 ?3685次閱讀

    圖靈獎(jiǎng)得主牽頭推動(dòng)芯片開(kāi)源 清華伯克利成立RISC-V國(guó)際實(shí)驗(yàn)室

    圖靈獎(jiǎng)得主牽頭,清華伯克利聯(lián)手打造開(kāi)源芯片,以深圳為根節(jié)點(diǎn),全面提升 RISC-V 生態(tài)系統(tǒng)至最先進(jìn)水平、成為一家以技術(shù)成果轉(zhuǎn)移為主要使命的非營(yíng)利組織,并產(chǎn)出免受專(zhuān)利訴訟的工業(yè)級(jí)知識(shí)產(chǎn)權(quán)成果。
    的頭像 發(fā)表于 06-17 15:05 ?4599次閱讀

    加州大學(xué)伯克利分校研發(fā)可以操控的機(jī)器人

    近日,加州大學(xué)伯克利分校(UC Berkeley)研發(fā)出了一款新型機(jī)器人,可實(shí)現(xiàn)洗碗、疊衣服、收拾房間的等動(dòng)作。
    發(fā)表于 08-05 15:45 ?967次閱讀

    美國(guó)伯克利市考慮2027年出臺(tái)汽油車(chē)禁售令

    據(jù)外媒報(bào)道,六年后,美國(guó)加州伯克利或?qū)⒔燮蛙?chē)。 伯克利市考慮到2027年出臺(tái)一項(xiàng)汽油車(chē)禁售令,旨在應(yīng)對(duì)氣候變化。 伯克利市議會(huì)計(jì)劃在下周二發(fā)起可行性調(diào)查請(qǐng)求,計(jì)劃出臺(tái)一項(xiàng)法規(guī),逐步淘汰伯克
    的頭像 發(fā)表于 01-19 11:25 ?1463次閱讀