穿衣服是我們每天都會做的動(dòng)作,對人類來說非常容易,比如在穿襯衫時(shí),我們一手打開襯衫,另一只手會穿到袖子中,連同整個(gè)手臂穿入袖子,再換另一只手穿好另一邊的袖子。整個(gè)過程中,我們都會依靠觸覺,保證動(dòng)作不會破壞衣服。但是目前還沒有能讓智能體自己穿衣的機(jī)器學(xué)習(xí)案例,想將人物和衣服之間這樣復(fù)雜的交互動(dòng)作制作成動(dòng)畫,依然是很大的挑戰(zhàn)。
最近,佐治亞理工學(xué)院的研究人員們提出了一種模型,可以讓強(qiáng)化學(xué)習(xí)智能體像人類一樣穿短袖、襯衫等衣服。以下是論智對原論文做的大致介紹:
為了用動(dòng)畫模擬人們穿衣的動(dòng)作,我們用到了物理模擬和機(jī)器學(xué)習(xí),我們使用了一個(gè)物理引擎模擬人物和衣服的動(dòng)作。為了生成任務(wù)動(dòng)作,我們用強(qiáng)化學(xué)習(xí)訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),執(zhí)行人物控制衣服的策略。
由于每個(gè)人在穿衣服時(shí)的控制策略不同,每個(gè)策略的動(dòng)作都是由任務(wù)和環(huán)境的狀態(tài)決定的。和其他運(yùn)動(dòng)或控制動(dòng)作不同,穿衣服的動(dòng)作并不遵循特定的運(yùn)動(dòng)軌跡,同時(shí)環(huán)境狀態(tài)也在高度變換,難以表示。所以我們用無模型的深度強(qiáng)化學(xué)習(xí)方法,用深度網(wǎng)絡(luò)自動(dòng)探索穿衣控制策略。
深度強(qiáng)化學(xué)習(xí)最近受到很大關(guān)注,因?yàn)樗梢源蟠鬁p少降維需求,也無需選擇狀態(tài)空間和動(dòng)作空間的特征。但是,直接在高維空間中學(xué)習(xí)、輸入狀態(tài)空間,對穿衣問題來說比較棘手,因?yàn)樵谶@種場景下的計(jì)算成本非常大。所以,直接生成“穿衣策略”會嚴(yán)重影響?yīng)剟?lì)函數(shù)、狀態(tài)和動(dòng)作的設(shè)計(jì),使得端到端學(xué)習(xí)方法變得不切實(shí)際。在這篇論文中,我們首次證明了,利用合適的輸入狀態(tài)空間和獎(jiǎng)勵(lì)函數(shù),是可以將模擬衣物嵌入到強(qiáng)化學(xué)習(xí)框架中的,從而學(xué)習(xí)一種穩(wěn)定的穿衣控制策略的。
觸覺感知
雖然穿衣的過程類似“移動(dòng)”和“抓取”任務(wù),但是與常見的操控任務(wù)不同的是,穿衣過程是依靠觸覺判斷任務(wù)的進(jìn)行的。智能體需要學(xué)習(xí)用觸覺完成兩個(gè)相反的任務(wù):施加力量將身體套在衣服上,同時(shí)還要避免力量過大損壞衣服。
在這一過程中,我們提出了一種可以表示觸覺信息的方法,用來指引穿衣過程。輸入到控制策略中的一部分環(huán)境狀態(tài)是一張觸覺地圖(haptic map),它可以測量智能體和模擬衣物之間接觸部分的力度。我們在智能體身上安置了一系列觸覺感應(yīng)器,然后收集身體和衣服之間的接觸力量。感應(yīng)器分布如下所示:
分辨正反
人們在穿衣時(shí),會讓身體和衣服的內(nèi)側(cè)接觸,也就是說人類能很容易地分辨衣服的正反面,這對不具備視覺感應(yīng)器的機(jī)器人來說也是個(gè)難題。為此,我們對每個(gè)觸覺感應(yīng)器提供了相應(yīng)的策略,可以區(qū)分衣物的內(nèi)側(cè)和外側(cè)。
如果感應(yīng)器上的接觸力與該位置上面向外的頂點(diǎn)法線相反,那么就是-1,反之則為1.如果最后感應(yīng)器收集的值為正數(shù),那么我們就認(rèn)為與感應(yīng)器接觸的是衣服的內(nèi)里,反之則是外側(cè)。
除此之外,訓(xùn)練期間的獎(jiǎng)勵(lì)函數(shù)會根據(jù)觸覺狀態(tài)和采取的動(dòng)作提供學(xué)習(xí)信號。例如,如果模型檢測到衣服發(fā)生變形,就會用獎(jiǎng)勵(lì)函數(shù)進(jìn)行懲罰。
策略程序算法
另一個(gè)遇到的挑戰(zhàn)就是,智能體在穿衣服時(shí)需要做一系列動(dòng)作,例如先抓起襯衫,將手對準(zhǔn)袖口,再將手穿過去。想讓單一的控制策略學(xué)習(xí)每一個(gè)步驟,并且一氣呵成是不可能的,原因仍然與計(jì)算成本有關(guān)。于是,我們將一整套穿衣流程分解成不同的子任務(wù),對每個(gè)任務(wù)學(xué)習(xí)控制策略。每個(gè)穿衣動(dòng)作的子任務(wù)都被設(shè)計(jì)成部分可觀測的馬爾可夫決策過程(POMDP),每個(gè)POMDP的解決方法都是隨機(jī)控制策略:π:O × A →[0, 1]。一個(gè)馬爾可夫決策過程是(S, A, r, ρ, Psas’, γ)的組合,其中S表示狀態(tài)空間,A表示動(dòng)作空間,r是獎(jiǎng)勵(lì)函數(shù),ρ表示初始狀態(tài)s0的分布,Psas’是過渡概率,γ是折扣因子。我們的目標(biāo)是優(yōu)化表示神經(jīng)網(wǎng)絡(luò)的策略π,讓積累的獎(jiǎng)勵(lì)達(dá)到最大。
為了保證任務(wù)效果不會因?yàn)椴呗缘母淖兌淖?,我們提出了一種策略程序(Policy sequencing)算法,它可以將一種子任務(wù)中的輸出狀態(tài)分布與下一個(gè)子任務(wù)的輸入分布按順序相匹配。
要為一個(gè)子任務(wù)生成成功策略需要數(shù)小時(shí)的模擬和優(yōu)化。高計(jì)算成本也有好處,這樣一來,最終結(jié)果就不是單一的動(dòng)畫,而是智能體的控制策略,可以處理多種情況,比如不同的衣服位置和人物動(dòng)作,如果過程中有干擾,會利用控制策略進(jìn)行修正。
結(jié)果
模擬小人穿t-shirt
模擬小人穿對開式衣服
模擬小人在輔助工具下穿衣
-
智能體
+關(guān)注
關(guān)注
1文章
166瀏覽量
10608 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
268瀏覽量
11285
原文標(biāo)題:效果驚艷!強(qiáng)化學(xué)習(xí)讓智能體像人類一樣穿衣服
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論