【導(dǎo)讀】MetaAI這次發(fā)布的MoDem解決了視覺強(qiáng)化學(xué)習(xí)領(lǐng)域的三個(gè)挑戰(zhàn),無需解碼器,效率最高提升250%,一起看看它有多牛。
12月27日,MetaAI 負(fù)責(zé)視覺和強(qiáng)化學(xué)習(xí)領(lǐng)域的A
截止27日晚間,這篇推文的閱讀量已經(jīng)達(dá)到73.9k。
他表示,僅給出5個(gè)演示,MoDem就能在100K交互步驟中解決具有稀疏獎(jiǎng)勵(lì)和高維動(dòng)作空間的具有挑戰(zhàn)性的視覺運(yùn)動(dòng)控制任務(wù),大大優(yōu)于現(xiàn)有的最先進(jìn)方法。
有多優(yōu)秀呢?
他們發(fā)現(xiàn)MoDem在完成稀疏獎(jiǎng)勵(lì)任務(wù)方面的成功率比低數(shù)據(jù)機(jī)制中的先前方法高出150%-250%。
Lecun也轉(zhuǎn)發(fā)了這一研究,表示MoDem的模型架構(gòu)類似于JEPA,可在表征空間做出預(yù)測且無需解碼器。
鏈接小編就放在下面啦,有興趣的小伙伴可以看看~
論文鏈接:https://arxiv.org/abs/2212.05698
Github鏈接:https://github.com/facebookresearch/modem
研究創(chuàng)新和模型架構(gòu)
樣本效率低下是實(shí)際應(yīng)用部署深度強(qiáng)化學(xué)習(xí) (RL) 算法的主要挑戰(zhàn),尤其是視覺運(yùn)動(dòng)控制。
基于模型的RL有可能通過同時(shí)學(xué)習(xí)世界模型并使用合成部署來進(jìn)行規(guī)劃和政策改進(jìn),從而實(shí)現(xiàn)高樣本效率。
然而在實(shí)踐中,基于模型的RL的樣本高效學(xué)習(xí)受到探索挑戰(zhàn)的瓶頸,這次研究恰恰解決了這些主要挑戰(zhàn)。
首先,MoDem分別通過使用世界模型、模仿+RL和自監(jiān)督視覺預(yù)訓(xùn)練,解決了視覺強(qiáng)化學(xué)習(xí)/控制領(lǐng)域的三個(gè)主要挑戰(zhàn):
大樣本復(fù)雜性(Large sample complexity)
高維狀態(tài)和動(dòng)作空間探索(Exploration in high-dimensional state and action space)
同步視覺表征和行為學(xué)習(xí)(Simultaneous learning of visual representations and behaviors)
這次的模型架構(gòu)類似于Yann LeCun的JEPA,并且無需解碼器。
作者Aravind Rajeswaran表示,相比Dreamer需要像素級預(yù)測的解碼器,架構(gòu)繁重,無解碼器架構(gòu)可支持直接插入使用SSL預(yù)訓(xùn)練的視覺表示。
此外基于IL+RL,他們提出了一個(gè)三階段算法:
BC預(yù)訓(xùn)練策略
使用包含演示和探索的種子數(shù)據(jù)集預(yù)訓(xùn)練世界模型,此階段對于整體穩(wěn)定性和效率很重要
通過在線互動(dòng)微調(diào)世界模型
結(jié)果顯示,生成的算法在21個(gè)硬視覺運(yùn)動(dòng)控制任務(wù)中取得了SOTA結(jié)果(State-Of-The-Art result),包括Adroit靈巧操作、MetaWorld和DeepMind控制套件。
從數(shù)據(jù)上來看,MoDem在各項(xiàng)任務(wù)中的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于其他模型,結(jié)果比之前的SOTA方法提升了150%到250%。
紅色線條為MoDem在各項(xiàng)任務(wù)中的表現(xiàn)
在此過程中,他們還闡明了MoDem中不同階段的重要性、數(shù)據(jù)增強(qiáng)對視覺MBRL的重要性以及預(yù)訓(xùn)練視覺表示的實(shí)用性。
最后,使用凍結(jié)的 R3M 功能遠(yuǎn)遠(yuǎn)優(yōu)于直接的 E2E 方法。這很令人興奮,表明視頻中的視覺預(yù)訓(xùn)練可以支持世界模型。
但8月數(shù)據(jù)強(qiáng)勁的E2E與凍結(jié)的R3M競爭,我們可以通過預(yù)訓(xùn)練做得更好。
審核編輯 :李倩
-
解碼器
+關(guān)注
關(guān)注
9文章
1143瀏覽量
40761 -
Meta
+關(guān)注
關(guān)注
0文章
271瀏覽量
11396 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
266瀏覽量
11262
原文標(biāo)題:Meta推出MoDem世界模型:解決視覺領(lǐng)域三大挑戰(zhàn),LeCun轉(zhuǎn)發(fā)
文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論