精品人妻无码av波多野结衣,麻豆精品国产片在线观看,免费高清无码免费

穿衣服是我們每天都會(huì)做的動(dòng)作，對(duì)人類來(lái)說(shuō)非常容易，比如在穿襯衫時(shí)，我們一手打開襯衫，另一只手會(huì)穿到袖子中，連同整個(gè)手臂穿入袖子，再換另一只手穿好另一邊的袖子。整個(gè)過(guò)程中，我們都會(huì)依靠觸覺(jué)，保證動(dòng)作不會(huì)破壞衣服。但是目前還沒(méi)有能讓智能體自己穿衣的機(jī)器學(xué)習(xí)案例，想將人物和衣服之間這樣復(fù)雜的交互動(dòng)作制作成動(dòng)畫，依然是很大的挑戰(zhàn)。

最近，佐治亞理工學(xué)院的研究人員們提出了一種模型，可以讓強(qiáng)化學(xué)習(xí)智能體像人類一樣穿短袖、襯衫等衣服。以下是論智對(duì)原論文做的大致介紹：

為了用動(dòng)畫模擬人們穿衣的動(dòng)作，我們用到了物理模擬和機(jī)器學(xué)習(xí)，我們使用了一個(gè)物理引擎模擬人物和衣服的動(dòng)作。為了生成任務(wù)動(dòng)作，我們用強(qiáng)化學(xué)習(xí)訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)，執(zhí)行人物控制衣服的策略。

由于每個(gè)人在穿衣服時(shí)的控制策略不同，每個(gè)策略的動(dòng)作都是由任務(wù)和環(huán)境的狀態(tài)決定的。和其他運(yùn)動(dòng)或控制動(dòng)作不同，穿衣服的動(dòng)作并不遵循特定的運(yùn)動(dòng)軌跡，同時(shí)環(huán)境狀態(tài)也在高度變換，難以表示。所以我們用無(wú)模型的深度強(qiáng)化學(xué)習(xí)方法，用深度網(wǎng)絡(luò)自動(dòng)探索穿衣控制策略。

深度強(qiáng)化學(xué)習(xí)最近受到很大關(guān)注，因?yàn)樗梢源蟠鬁p少降維需求，也無(wú)需選擇狀態(tài)空間和動(dòng)作空間的特征。但是，直接在高維空間中學(xué)習(xí)、輸入狀態(tài)空間，對(duì)穿衣問(wèn)題來(lái)說(shuō)比較棘手，因?yàn)樵谶@種場(chǎng)景下的計(jì)算成本非常大。所以，直接生成“穿衣策略”會(huì)嚴(yán)重影響?yīng)剟?lì)函數(shù)、狀態(tài)和動(dòng)作的設(shè)計(jì)，使得端到端學(xué)習(xí)方法變得不切實(shí)際。在這篇論文中，我們首次證明了，利用合適的輸入狀態(tài)空間和獎(jiǎng)勵(lì)函數(shù)，是可以將模擬衣物嵌入到強(qiáng)化學(xué)習(xí)框架中的，從而學(xué)習(xí)一種穩(wěn)定的穿衣控制策略的。

觸覺(jué)感知

雖然穿衣的過(guò)程類似“移動(dòng)”和“抓取”任務(wù)，但是與常見(jiàn)的操控任務(wù)不同的是，穿衣過(guò)程是依靠觸覺(jué)判斷任務(wù)的進(jìn)行的。智能體需要學(xué)習(xí)用觸覺(jué)完成兩個(gè)相反的任務(wù)：施加力量將身體套在衣服上，同時(shí)還要避免力量過(guò)大損壞衣服。

在這一過(guò)程中，我們提出了一種可以表示觸覺(jué)信息的方法，用來(lái)指引穿衣過(guò)程。輸入到控制策略中的一部分環(huán)境狀態(tài)是一張觸覺(jué)地圖（haptic map），它可以測(cè)量智能體和模擬衣物之間接觸部分的力度。我們?cè)谥悄荏w身上安置了一系列觸覺(jué)感應(yīng)器，然后收集身體和衣服之間的接觸力量。感應(yīng)器分布如下所示：

分辨正反

人們?cè)诖┮聲r(shí)，會(huì)讓身體和衣服的內(nèi)側(cè)接觸，也就是說(shuō)人類能很容易地分辨衣服的正反面，這對(duì)不具備視覺(jué)感應(yīng)器的機(jī)器人來(lái)說(shuō)也是個(gè)難題。為此，我們對(duì)每個(gè)觸覺(jué)感應(yīng)器提供了相應(yīng)的策略，可以區(qū)分衣物的內(nèi)側(cè)和外側(cè)。

如果感應(yīng)器上的接觸力與該位置上面向外的頂點(diǎn)法線相反，那么就是-1，反之則為1.如果最后感應(yīng)器收集的值為正數(shù)，那么我們就認(rèn)為與感應(yīng)器接觸的是衣服的內(nèi)里，反之則是外側(cè)。

除此之外，訓(xùn)練期間的獎(jiǎng)勵(lì)函數(shù)會(huì)根據(jù)觸覺(jué)狀態(tài)和采取的動(dòng)作提供學(xué)習(xí)信號(hào)。例如，如果模型檢測(cè)到衣服發(fā)生變形，就會(huì)用獎(jiǎng)勵(lì)函數(shù)進(jìn)行懲罰。

策略程序算法

另一個(gè)遇到的挑戰(zhàn)就是，智能體在穿衣服時(shí)需要做一系列動(dòng)作，例如先抓起襯衫，將手對(duì)準(zhǔn)袖口，再將手穿過(guò)去。想讓單一的控制策略學(xué)習(xí)每一個(gè)步驟，并且一氣呵成是不可能的，原因仍然與計(jì)算成本有關(guān)。于是，我們將一整套穿衣流程分解成不同的子任務(wù)，對(duì)每個(gè)任務(wù)學(xué)習(xí)控制策略。每個(gè)穿衣動(dòng)作的子任務(wù)都被設(shè)計(jì)成部分可觀測(cè)的馬爾可夫決策過(guò)程（POMDP），每個(gè)POMDP的解決方法都是隨機(jī)控制策略：π：O × A →[0, 1]。一個(gè)馬爾可夫決策過(guò)程是（S, A, r, ρ, Psas’, γ）的組合，其中S表示狀態(tài)空間，A表示動(dòng)作空間，r是獎(jiǎng)勵(lì)函數(shù)，ρ表示初始狀態(tài)s0的分布，Psas’是過(guò)渡概率，γ是折扣因子。我們的目標(biāo)是優(yōu)化表示神經(jīng)網(wǎng)絡(luò)的策略π，讓積累的獎(jiǎng)勵(lì)達(dá)到最大。

為了保證任務(wù)效果不會(huì)因?yàn)椴呗缘母淖兌淖?，我們提出了一種策略程序（Policy sequencing）算法，它可以將一種子任務(wù)中的輸出狀態(tài)分布與下一個(gè)子任務(wù)的輸入分布按順序相匹配。

要為一個(gè)子任務(wù)生成成功策略需要數(shù)小時(shí)的模擬和優(yōu)化。高計(jì)算成本也有好處，這樣一來(lái)，最終結(jié)果就不是單一的動(dòng)畫，而是智能體的控制策略，可以處理多種情況，比如不同的衣服位置和人物動(dòng)作，如果過(guò)程中有干擾，會(huì)利用控制策略進(jìn)行修正。

結(jié)果

模擬小人穿t-shirt

模擬小人穿對(duì)開式衣服

模擬小人在輔助工具下穿衣

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

智能體

智能體

+關(guān)注

關(guān)注
1

文章
224

瀏覽量
10879
強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
269

瀏覽量
11463

原文標(biāo)題：效果驚艷！強(qiáng)化學(xué)習(xí)讓智能體像人類一樣穿衣服

文章出處：【微信號(hào)：jqr_AI，微信公眾號(hào)：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

測(cè)試)三、主講內(nèi)容1:課程一、強(qiáng)化學(xué)習(xí)簡(jiǎn)介課程二、強(qiáng)化學(xué)習(xí)基礎(chǔ)課程三、深度強(qiáng)化學(xué)習(xí)基礎(chǔ)課程四、多智能體

發(fā)表于 01-10 13:42

將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

深度強(qiáng)化學(xué)習(xí)DRL自提出以來(lái)，已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo，將深度強(qiáng)化學(xué)習(xí)DRL成推上新的熱點(diǎn)和高度，成為人工

發(fā)表于 06-29 18:36 ?2.8w次閱讀

高明！OpenAI提出HER算法，人工智能可像人類一樣認(rèn)識(shí)錯(cuò)誤汲取教訓(xùn)

OpenAI的研究人員集中精力于構(gòu)建具有更強(qiáng)的學(xué)習(xí)能力的人工智能。得益于他們的增強(qiáng)學(xué)習(xí)系統(tǒng)OpenAI baselines，機(jī)器學(xué)習(xí)算法可以進(jìn)行自主

發(fā)表于 05-01 16:35 ?4288次閱讀

機(jī)器能像嬰兒一樣通過(guò)眼睛學(xué)習(xí)世界？

在Facebook人工智能實(shí)驗(yàn)室負(fù)責(zé)人楊樂(lè)昆（Yann LeCun）看來(lái)，人類既然已經(jīng)教會(huì)機(jī)器辨別圖片，甚至能做到人臉識(shí)別，那么機(jī)器也能識(shí)別視頻。而教會(huì)機(jī)器學(xué)習(xí)視頻的方法與嬰兒學(xué)習(xí)相似

發(fā)表于 05-17 19:21 ?669次閱讀

人工智能機(jī)器學(xué)習(xí)之強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí)，以使獎(jiǎng)勵(lì)信號(hào)（強(qiáng)化信號(hào)）函數(shù)值最大，強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)

發(fā)表于 05-30 06:53 ?1475次閱讀

什么是強(qiáng)化學(xué)習(xí)？純強(qiáng)化學(xué)習(xí)有意義嗎？強(qiáng)化學(xué)習(xí)有什么的致命缺陷？

強(qiáng)化學(xué)習(xí)是人工智能基本的子領(lǐng)域之一，在強(qiáng)化學(xué)習(xí)的框架中，智能體通過(guò)與環(huán)境互動(dòng)，來(lái)

發(fā)表于 07-15 10:56 ?1.8w次閱讀

強(qiáng)化學(xué)習(xí)環(huán)境研究，智能體玩游戲?yàn)槭裁磪柡?/a>

強(qiáng)化學(xué)習(xí)作為一種常用的訓(xùn)練智能體的方法，能夠完成很多復(fù)雜的任務(wù)。在強(qiáng)化學(xué)習(xí)中，智能

 發(fā)表于 08-18 11:38 ?3743次閱讀

基于強(qiáng)化學(xué)習(xí)的MADDPG算法原理及實(shí)現(xiàn)

之前接觸的強(qiáng)化學(xué)習(xí)算法都是單個(gè)智能體的強(qiáng)化學(xué)習(xí)算法，但是也有很多重要的應(yīng)用場(chǎng)景牽涉到多個(gè)智能體之

發(fā)表于 11-02 16:18 ?2.2w次閱讀

如何測(cè)試強(qiáng)化學(xué)習(xí)智能體適應(yīng)性

強(qiáng)化學(xué)習(xí)（RL）能通過(guò)獎(jiǎng)勵(lì)或懲罰使智能體實(shí)現(xiàn)目標(biāo)，并將它們學(xué)習(xí)到的經(jīng)驗(yàn)轉(zhuǎn)移到新環(huán)境中。

發(fā)表于 12-24 09:29 ?3346次閱讀

深度強(qiáng)化學(xué)習(xí)能讓機(jī)器人擁有人一樣的意識(shí)

一種人工智能系統(tǒng)，即通過(guò)深度強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)走路，簡(jiǎn)單來(lái)說(shuō)，就是教“一個(gè)四足機(jī)器人來(lái)穿越熟悉和不熟悉的地形”。

發(fā)表于 01-03 09:50 ?3494次閱讀

人工智能和人類看到的東西一樣嗎

為了讓深度學(xué)習(xí)算法像人類一樣用形狀來(lái)識(shí)別物體，研究人員用涂有不相干紋理的圖片來(lái)訓(xùn)練這些系統(tǒng)。結(jié)果表明：系統(tǒng)的表現(xiàn)得到了提高，這同時(shí)也為我們視

發(fā)表于 08-29 15:59 ?2380次閱讀

DeepMind發(fā)布強(qiáng)化學(xué)習(xí)庫(kù)RLax

RLax（發(fā)音為“ relax”）是建立在JAX之上的庫(kù)，它公開了用于實(shí)施強(qiáng)化學(xué)習(xí)智能體的有用構(gòu)建塊。。報(bào)道：深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室作者：DeepRL ...

發(fā)表于 12-10 18:43 ?842次閱讀

一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法

一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法

發(fā)表于 06-23 10:42 ?36次下載

語(yǔ)言模型做先驗(yàn)，統(tǒng)一強(qiáng)化學(xué)習(xí)智能體，DeepMind選擇走這條通用AI之路

在智能體的開發(fā)中，強(qiáng)化學(xué)習(xí)與大語(yǔ)言模型、視覺(jué)語(yǔ)言模型等基礎(chǔ)模型的進(jìn)一步融合究竟能擦出怎樣的火花？谷歌 DeepMind 給了我們新的答案。

發(fā)表于 07-24 16:55 ?662次閱讀

什么是強(qiáng)化學(xué)習(xí)

的AlphaStar，他們都是強(qiáng)化學(xué)習(xí)模型。諸如此類的模型還有 AlphaGo Zero 等。 強(qiáng)化學(xué)習(xí)的原理非常簡(jiǎn)單，它非常像心理學(xué)中新行為主義派的斯金納發(fā)現(xiàn)的操作性條件反射。操作

發(fā)表于 10-30 11:36 ?4589次閱讀

搜索歷史

讓強(qiáng)化學(xué)習(xí)智能體像人類一樣穿短袖、襯衫等衣服

評(píng)論

深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

高明！OpenAI提出HER算法，人工智能可像人類一樣認(rèn)識(shí)錯(cuò)誤汲取教訓(xùn)

機(jī)器能像嬰兒一樣通過(guò)眼睛學(xué)習(xí)世界？

人工智能機(jī)器學(xué)習(xí)之強(qiáng)化學(xué)習(xí)

什么是強(qiáng)化學(xué)習(xí)？純強(qiáng)化學(xué)習(xí)有意義嗎？強(qiáng)化學(xué)習(xí)有什么的致命缺陷？

強(qiáng)化學(xué)習(xí)環(huán)境研究，智能體玩游戲?yàn)槭裁磪柡?/a>

基于強(qiáng)化學(xué)習(xí)的MADDPG算法原理及實(shí)現(xiàn)

如何測(cè)試強(qiáng)化學(xué)習(xí)智能體適應(yīng)性

深度強(qiáng)化學(xué)習(xí)能讓機(jī)器人擁有人一樣的意識(shí)

人工智能和人類看到的東西一樣嗎

DeepMind發(fā)布強(qiáng)化學(xué)習(xí)庫(kù)RLax

一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法

語(yǔ)言模型做先驗(yàn)，統(tǒng)一強(qiáng)化學(xué)習(xí)智能體，DeepMind選擇走這條通用AI之路

什么是強(qiáng)化學(xué)習(xí)

電子發(fā)燒友

搜索歷史

讓強(qiáng)化學(xué)習(xí)智能體像人類一樣穿短袖、襯衫等衣服

評(píng)論

電子發(fā)燒友

讓強(qiáng)化學(xué)習(xí)智能體像人類一樣穿短袖、襯衫等衣服