深度強(qiáng)化學(xué)習(xí)(Deep RL)可以通過(guò)序列決策式的方式,在很多方面得到應(yīng)用。這里我們主要介紹一篇CVPR‘21使用RL做點(diǎn)云圖像配準(zhǔn)的文章:ReAgent: Point Cloud Registration using Imitation and Reinforcement Learninghttps://arxiv.org/abs/2103.15231
總體上而言,ReAgent是通過(guò)訓(xùn)練了一個(gè)Policy網(wǎng)絡(luò),狀態(tài)是Source點(diǎn)云和Target點(diǎn)云,輸出一系列動(dòng)作(旋轉(zhuǎn)、平移Source點(diǎn)云),使得Source點(diǎn)云最終和Target點(diǎn)云在相同的地方重合。那么我們現(xiàn)在深入其中的細(xì)節(jié),其實(shí)針對(duì)RL的應(yīng)用文章,最需要關(guān)注的點(diǎn)是以下4個(gè)方面:
狀態(tài)(State)設(shè)計(jì)
動(dòng)作(Action)設(shè)計(jì)
獎(jiǎng)勵(lì)(Reward)設(shè)計(jì)
算法實(shí)現(xiàn)
一般來(lái)說(shuō)RL的應(yīng)用文章在算法上無(wú)非使用的是較為廣泛使用的算法模型,如DQN、PPO、SAC等。
State
這里的State是將Source和Targe點(diǎn)云通過(guò)一個(gè)PointNet類似的結(jié)構(gòu),從高維點(diǎn)云信息Embedding到一個(gè)特征空間后,兩者Concatenate得到State的表征信息。這里從上圖中可以比較好的理解。
Action
這里Action的選擇就比較直觀,我們需要通過(guò)一些操作來(lái)旋轉(zhuǎn)、平移Source點(diǎn)云。那么Action就直接設(shè)置為旋轉(zhuǎn)、平移相關(guān)的動(dòng)作。這篇文章在實(shí)現(xiàn)上,使用離散的動(dòng)作集,比如x方向的平移為[0.0033,0.01,0.03,0.09,0.27],當(dāng)然是有正有負(fù)。
Reward
Reward的設(shè)計(jì)就更為直觀,就是在執(zhí)行動(dòng)作后,看是否Source和Target之間更加接近了。這里使用的是Chamfer Distance(CD)來(lái)衡量,下面給出Reward的設(shè)計(jì):
這里的Reward也很直觀,就是加入執(zhí)行動(dòng)作之后,是否變得更好?如果變好了就給一個(gè)正的獎(jiǎng)勵(lì),如果變差了就給一個(gè)負(fù)的獎(jiǎng)勵(lì)。
算法實(shí)現(xiàn)
文章采用了PPO。那么ReAgent的總體框架就如下圖:
如果理解了這個(gè)問(wèn)題中的State、Action的設(shè)計(jì),還是相當(dāng)直觀的框架。同時(shí)筆者也跑通了ReAgent的代碼,實(shí)際看下其效果如何,主要是觀察其序列動(dòng)作過(guò)程
可以看到ReAgent的動(dòng)作還是相當(dāng)“絲滑“”且準(zhǔn)確的。也希望更多的讀者能夠探索RL的各種應(yīng)用,做到像人一樣“絲滑”~
—版權(quán)聲明—
來(lái)源:強(qiáng)化學(xué)習(xí)技術(shù)前沿
僅用于學(xué)術(shù)分享,版權(quán)屬于原作者。
若有侵權(quán),請(qǐng)聯(lián)系微信號(hào): 刪除或修改!
編輯:jq
-
代碼
+關(guān)注
關(guān)注
30文章
4797瀏覽量
68707 -
深度強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
0文章
14瀏覽量
2308
原文標(biāo)題:深度強(qiáng)化學(xué)習(xí)點(diǎn)云配準(zhǔn)——ReAgent技術(shù)詳解
文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺(jué)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論