0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

讓強(qiáng)化學(xué)習(xí)智能體像人類一樣穿短袖、襯衫等衣服

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-11-05 15:07 ? 次閱讀

穿衣服是我們每天都會(huì)做的動(dòng)作,對(duì)人類來(lái)說(shuō)非常容易,比如在穿襯衫時(shí),我們一手打開襯衫,另一只手會(huì)穿到袖子中,連同整個(gè)手臂穿入袖子,再換另一只手穿好另一邊的袖子。整個(gè)過(guò)程中,我們都會(huì)依靠觸覺(jué),保證動(dòng)作不會(huì)破壞衣服。但是目前還沒(méi)有能讓智能體自己穿衣的機(jī)器學(xué)習(xí)案例,想將人物和衣服之間這樣復(fù)雜的交互動(dòng)作制作成動(dòng)畫,依然是很大的挑戰(zhàn)。

最近,佐治亞理工學(xué)院的研究人員們提出了一種模型,可以讓強(qiáng)化學(xué)習(xí)智能體像人類一樣穿短袖、襯衫等衣服。以下是論智對(duì)原論文做的大致介紹:

為了用動(dòng)畫模擬人們穿衣的動(dòng)作,我們用到了物理模擬和機(jī)器學(xué)習(xí),我們使用了一個(gè)物理引擎模擬人物和衣服的動(dòng)作。為了生成任務(wù)動(dòng)作,我們用強(qiáng)化學(xué)習(xí)訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),執(zhí)行人物控制衣服的策略。

由于每個(gè)人在穿衣服時(shí)的控制策略不同,每個(gè)策略的動(dòng)作都是由任務(wù)和環(huán)境的狀態(tài)決定的。和其他運(yùn)動(dòng)或控制動(dòng)作不同,穿衣服的動(dòng)作并不遵循特定的運(yùn)動(dòng)軌跡,同時(shí)環(huán)境狀態(tài)也在高度變換,難以表示。所以我們用無(wú)模型的深度強(qiáng)化學(xué)習(xí)方法,用深度網(wǎng)絡(luò)自動(dòng)探索穿衣控制策略。

深度強(qiáng)化學(xué)習(xí)最近受到很大關(guān)注,因?yàn)樗梢源蟠鬁p少降維需求,也無(wú)需選擇狀態(tài)空間和動(dòng)作空間的特征。但是,直接在高維空間中學(xué)習(xí)、輸入狀態(tài)空間,對(duì)穿衣問(wèn)題來(lái)說(shuō)比較棘手,因?yàn)樵谶@種場(chǎng)景下的計(jì)算成本非常大。所以,直接生成“穿衣策略”會(huì)嚴(yán)重影響?yīng)剟?lì)函數(shù)、狀態(tài)和動(dòng)作的設(shè)計(jì),使得端到端學(xué)習(xí)方法變得不切實(shí)際。在這篇論文中,我們首次證明了,利用合適的輸入狀態(tài)空間和獎(jiǎng)勵(lì)函數(shù),是可以將模擬衣物嵌入到強(qiáng)化學(xué)習(xí)框架中的,從而學(xué)習(xí)一種穩(wěn)定的穿衣控制策略的。

觸覺(jué)感知

雖然穿衣的過(guò)程類似“移動(dòng)”和“抓取”任務(wù),但是與常見(jiàn)的操控任務(wù)不同的是,穿衣過(guò)程是依靠觸覺(jué)判斷任務(wù)的進(jìn)行的。智能體需要學(xué)習(xí)用觸覺(jué)完成兩個(gè)相反的任務(wù):施加力量將身體套在衣服上,同時(shí)還要避免力量過(guò)大損壞衣服。

在這一過(guò)程中,我們提出了一種可以表示觸覺(jué)信息的方法,用來(lái)指引穿衣過(guò)程。輸入到控制策略中的一部分環(huán)境狀態(tài)是一張觸覺(jué)地圖(haptic map),它可以測(cè)量智能體和模擬衣物之間接觸部分的力度。我們?cè)谥悄荏w身上安置了一系列觸覺(jué)感應(yīng)器,然后收集身體和衣服之間的接觸力量。感應(yīng)器分布如下所示:

分辨正反

人們?cè)诖┮聲r(shí),會(huì)讓身體和衣服的內(nèi)側(cè)接觸,也就是說(shuō)人類能很容易地分辨衣服的正反面,這對(duì)不具備視覺(jué)感應(yīng)器的機(jī)器人來(lái)說(shuō)也是個(gè)難題。為此,我們對(duì)每個(gè)觸覺(jué)感應(yīng)器提供了相應(yīng)的策略,可以區(qū)分衣物的內(nèi)側(cè)和外側(cè)。

如果感應(yīng)器上的接觸力與該位置上面向外的頂點(diǎn)法線相反,那么就是-1,反之則為1.如果最后感應(yīng)器收集的值為正數(shù),那么我們就認(rèn)為與感應(yīng)器接觸的是衣服的內(nèi)里,反之則是外側(cè)。

除此之外,訓(xùn)練期間的獎(jiǎng)勵(lì)函數(shù)會(huì)根據(jù)觸覺(jué)狀態(tài)和采取的動(dòng)作提供學(xué)習(xí)信號(hào)。例如,如果模型檢測(cè)到衣服發(fā)生變形,就會(huì)用獎(jiǎng)勵(lì)函數(shù)進(jìn)行懲罰。

策略程序算法

另一個(gè)遇到的挑戰(zhàn)就是,智能體在穿衣服時(shí)需要做一系列動(dòng)作,例如先抓起襯衫,將手對(duì)準(zhǔn)袖口,再將手穿過(guò)去。想讓單一的控制策略學(xué)習(xí)每一個(gè)步驟,并且一氣呵成是不可能的,原因仍然與計(jì)算成本有關(guān)。于是,我們將一整套穿衣流程分解成不同的子任務(wù),對(duì)每個(gè)任務(wù)學(xué)習(xí)控制策略。每個(gè)穿衣動(dòng)作的子任務(wù)都被設(shè)計(jì)成部分可觀測(cè)的馬爾可夫決策過(guò)程(POMDP),每個(gè)POMDP的解決方法都是隨機(jī)控制策略:π:O × A →[0, 1]。一個(gè)馬爾可夫決策過(guò)程是(S, A, r, ρ, Psas’, γ)的組合,其中S表示狀態(tài)空間,A表示動(dòng)作空間,r是獎(jiǎng)勵(lì)函數(shù),ρ表示初始狀態(tài)s0的分布,Psas’是過(guò)渡概率,γ是折扣因子。我們的目標(biāo)是優(yōu)化表示神經(jīng)網(wǎng)絡(luò)的策略π,讓積累的獎(jiǎng)勵(lì)達(dá)到最大。

為了保證任務(wù)效果不會(huì)因?yàn)椴呗缘母淖兌淖?,我們提出了一種策略程序(Policy sequencing)算法,它可以將一種子任務(wù)中的輸出狀態(tài)分布與下一個(gè)子任務(wù)的輸入分布按順序相匹配。

要為一個(gè)子任務(wù)生成成功策略需要數(shù)小時(shí)的模擬和優(yōu)化。高計(jì)算成本也有好處,這樣一來(lái),最終結(jié)果就不是單一的動(dòng)畫,而是智能體的控制策略,可以處理多種情況,比如不同的衣服位置和人物動(dòng)作,如果過(guò)程中有干擾,會(huì)利用控制策略進(jìn)行修正。

結(jié)果

模擬小人穿t-shirt

模擬小人穿對(duì)開式衣服

模擬小人在輔助工具下穿衣

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    224

    瀏覽量

    10879
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    269

    瀏覽量

    11463

原文標(biāo)題:效果驚艷!強(qiáng)化學(xué)習(xí)讓智能體像人類一樣穿衣服

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    測(cè)試)三、主講內(nèi)容1:課程強(qiáng)化學(xué)習(xí)簡(jiǎn)介課程二、強(qiáng)化學(xué)習(xí)基礎(chǔ)課程三、深度強(qiáng)化學(xué)習(xí)基礎(chǔ)課程四、多智能
    發(fā)表于 01-10 13:42

    將深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

    深度強(qiáng)化學(xué)習(xí)DRL自提出以來(lái), 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo,將深度強(qiáng)化學(xué)習(xí)DRL成推上新的熱點(diǎn)和高度,成為人工
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    高明!OpenAI提出HER算法,人工智能人類一樣認(rèn)識(shí)錯(cuò)誤汲取教訓(xùn)

    OpenAI的研究人員集中精力于構(gòu)建具有更強(qiáng)的學(xué)習(xí)能力的人工智能。得益于他們的增強(qiáng)學(xué)習(xí)系統(tǒng)OpenAI baselines,機(jī)器學(xué)習(xí)算法可以進(jìn)行自主
    的頭像 發(fā)表于 05-01 16:35 ?4288次閱讀

    機(jī)器能嬰兒一樣通過(guò)眼睛學(xué)習(xí)世界?

    在Facebook人工智能實(shí)驗(yàn)室負(fù)責(zé)人楊樂(lè)昆(Yann LeCun)看來(lái),人類既然已經(jīng)教會(huì)機(jī)器辨別圖片,甚至能做到人臉識(shí)別,那么機(jī)器也能識(shí)別視頻。而教會(huì)機(jī)器學(xué)習(xí)視頻的方法與嬰兒學(xué)習(xí)相似
    發(fā)表于 05-17 19:21 ?669次閱讀

    人工智能機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎(jiǎng)勵(lì)信號(hào)(強(qiáng)化信號(hào))函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)
    發(fā)表于 05-30 06:53 ?1475次閱讀

    什么是強(qiáng)化學(xué)習(xí)?純強(qiáng)化學(xué)習(xí)有意義嗎?強(qiáng)化學(xué)習(xí)有什么的致命缺陷?

    強(qiáng)化學(xué)習(xí)是人工智能基本的子領(lǐng)域之,在強(qiáng)化學(xué)習(xí)的框架中,智能通過(guò)與環(huán)境互動(dòng),來(lái)
    的頭像 發(fā)表于 07-15 10:56 ?1.8w次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?純<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有意義嗎?<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有什么的致命缺陷?

    強(qiáng)化學(xué)習(xí)環(huán)境研究,智能玩游戲?yàn)槭裁磪柡?/a>

    強(qiáng)化學(xué)習(xí)作為種常用的訓(xùn)練智能的方法,能夠完成很多復(fù)雜的任務(wù)。在強(qiáng)化學(xué)習(xí)中,智能
    的頭像 發(fā)表于 08-18 11:38 ?3743次閱讀

    基于強(qiáng)化學(xué)習(xí)的MADDPG算法原理及實(shí)現(xiàn)

    之前接觸的強(qiáng)化學(xué)習(xí)算法都是單個(gè)智能強(qiáng)化學(xué)習(xí)算法,但是也有很多重要的應(yīng)用場(chǎng)景牽涉到多個(gè)智能
    的頭像 發(fā)表于 11-02 16:18 ?2.2w次閱讀

    如何測(cè)試強(qiáng)化學(xué)習(xí)智能適應(yīng)性

    強(qiáng)化學(xué)習(xí)(RL)能通過(guò)獎(jiǎng)勵(lì)或懲罰使智能實(shí)現(xiàn)目標(biāo),并將它們學(xué)習(xí)到的經(jīng)驗(yàn)轉(zhuǎn)移到新環(huán)境中。
    的頭像 發(fā)表于 12-24 09:29 ?3346次閱讀

    深度強(qiáng)化學(xué)習(xí)能讓機(jī)器人擁有人一樣的意識(shí)

    種人工智能系統(tǒng),即通過(guò)深度強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)走路,簡(jiǎn)單來(lái)說(shuō),就是教“個(gè)四足機(jī)器人來(lái)穿越熟悉和不熟悉的地形”。
    發(fā)表于 01-03 09:50 ?3494次閱讀

    人工智能人類看到的東西一樣

    為了深度學(xué)習(xí)算法人類一樣用形狀來(lái)識(shí)別物體,研究人員用涂有不相干紋理的圖片來(lái)訓(xùn)練這些系統(tǒng)。結(jié)果表明:系統(tǒng)的表現(xiàn)得到了提高,這同時(shí)也為我們視
    的頭像 發(fā)表于 08-29 15:59 ?2380次閱讀

    DeepMind發(fā)布強(qiáng)化學(xué)習(xí)庫(kù)RLax

    RLax(發(fā)音為“ relax”)是建立在JAX之上的庫(kù),它公開了用于實(shí)施強(qiáng)化學(xué)習(xí)智能的有用構(gòu)建塊。。報(bào)道:深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室作者:DeepRL ...
    的頭像 發(fā)表于 12-10 18:43 ?842次閱讀

    種新型的多智能深度強(qiáng)化學(xué)習(xí)算法

    種新型的多智能深度強(qiáng)化學(xué)習(xí)算法
    發(fā)表于 06-23 10:42 ?36次下載

    語(yǔ)言模型做先驗(yàn),統(tǒng)強(qiáng)化學(xué)習(xí)智能,DeepMind選擇走這條通用AI之路

    智能的開發(fā)中,強(qiáng)化學(xué)習(xí)與大語(yǔ)言模型、視覺(jué)語(yǔ)言模型基礎(chǔ)模型的進(jìn)步融合究竟能擦出怎樣的火花?谷歌 DeepMind 給了我們新的答案。
    的頭像 發(fā)表于 07-24 16:55 ?662次閱讀
    語(yǔ)言模型做先驗(yàn),統(tǒng)<b class='flag-5'>一</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b><b class='flag-5'>智能</b><b class='flag-5'>體</b>,DeepMind選擇走這條通用AI之路

    什么是強(qiáng)化學(xué)習(xí)

    的AlphaStar,他們都是強(qiáng)化學(xué)習(xí)模型。諸如此類的模型還有 AlphaGo Zero 。 強(qiáng)化學(xué)習(xí)的原理非常簡(jiǎn)單,它非常心理學(xué)中新行為主義派的斯金納發(fā)現(xiàn)的操作性條件反射。 操作
    的頭像 發(fā)表于 10-30 11:36 ?4589次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品