在設(shè)計(jì)基于機(jī)器學(xué)習(xí)的解決方案時(shí),需要問的一個(gè)關(guān)鍵問題是,“開發(fā)此解決方案的資源成本是多少?”答案通常有很多因素:時(shí)間、開發(fā)人員技能和計(jì)算資源。很少有研究人員能夠最大化所有這些方面,因此優(yōu)化解決方案開發(fā)過程至關(guān)重要。這一問題在機(jī)器人技術(shù)中進(jìn)一步加劇,因?yàn)槊宽?xiàng)任務(wù)通常都需要一個(gè)完全獨(dú)特的解決方案,其中涉及到專家的大量手工制作。
典型的機(jī)器人解決方案需要數(shù)周甚至數(shù)月的時(shí)間來開發(fā)和測(cè)試。靈巧的多指物體操縱一直是機(jī)器人操縱控制和學(xué)習(xí)領(lǐng)域的一個(gè)長(zhǎng)期挑戰(zhàn)。
靈巧手法綜述
放松剛性約束:抓取操作的運(yùn)動(dòng)學(xué)軌跡優(yōu)化和碰撞避免
學(xué)習(xí)局部模型的最優(yōu)控制:在靈巧操作中的應(yīng)用
具有深度強(qiáng)化學(xué)習(xí)的靈巧操作:高效、通用和低成本
雖然在過去 5 年中,運(yùn)動(dòng)的高維控制以及基于圖像的物體操作(使用簡(jiǎn)化的夾持器)方面的挑戰(zhàn)取得了顯著的進(jìn)展,但多指靈巧操作仍然是一個(gè)影響巨大但難以解決的問題。這一挑戰(zhàn)是由以下問題造成的:
高維協(xié)調(diào)控制
低效的仿真平臺(tái)
實(shí)際機(jī)器人操作中觀測(cè)和控制的不確定性
缺乏強(qiáng)健且經(jīng)濟(jì)高效的硬件平臺(tái)
這些挑戰(zhàn)加上缺乏大規(guī)模計(jì)算機(jī)和機(jī)器人硬件,限制了試圖解決這些問題的團(tuán)隊(duì)的多樣性。
我們?cè)谶@項(xiàng)工作中的目標(biāo)是通過大規(guī)模仿真和機(jī)器人即服務(wù)技術(shù),為機(jī)器人學(xué)習(xí)的民主化提供一條道路和可行的解決方案。以靈巧多指機(jī)械手為例,重點(diǎn)研究了六自由度物體操縱。我們展示了在桌面級(jí) GPU 和基于云的機(jī)器人技術(shù)上進(jìn)行的大規(guī)模模擬如何使機(jī)器人專家能夠利用有限的資源進(jìn)行機(jī)器人學(xué)習(xí)方面的研究。
雖然在手工操作方面的一些努力試圖構(gòu)建健壯的系統(tǒng),但最令人印象深刻的演示之一是幾年前來自 OpenAI 的一個(gè)團(tuán)隊(duì),該團(tuán)隊(duì)構(gòu)建了一個(gè)名為Dactyl的系統(tǒng)。這是一個(gè)令人印象深刻的工程壯舉,以實(shí)現(xiàn)多目標(biāo)在手休息與陰影的手。
然而,它不僅在最終性能上,而且在構(gòu)建此演示所需的計(jì)算量和工程工作量上都是引人注目的。據(jù)公眾估計(jì),它使用了 13000 年的計(jì)算機(jī),硬件本身成本高昂,但需要反復(fù)干預(yù)。巨大的資源需求有效地阻止了其他人復(fù)制這一結(jié)果,并因此在這一結(jié)果的基礎(chǔ)上再接再厲。
在這篇文章中,我們展示了我們的系統(tǒng)努力是解決這種資源不平等的途徑?,F(xiàn)在,使用單一的臺(tái)式機(jī)等級(jí) GPU 和 CPU ,在不到一天的時(shí)間內(nèi)即可獲得類似的結(jié)果。
強(qiáng)化學(xué)習(xí)中標(biāo)準(zhǔn)姿勢(shì)表示的復(fù)雜性
在最初的實(shí)驗(yàn)中,我們遵循以前的工作,提供了基于三維笛卡爾位置加上四維四元數(shù)表示的姿勢(shì)的觀察,以指定立方體的當(dāng)前和目標(biāo)位置。我們還根據(jù) L2 范數(shù)(位置)和立方體的期望姿勢(shì)和當(dāng)前姿勢(shì)之間的角度差(方向)固定了獎(jiǎng)勵(lì)。有關(guān)更多信息,請(qǐng)參閱學(xué)習(xí)靈活性 OpenAI 帖子和 GPU – 分布式強(qiáng)化學(xué)習(xí)的加速機(jī)器人仿真。
我們發(fā)現(xiàn)這種方法會(huì)產(chǎn)生不穩(wěn)定的獎(jiǎng)勵(lì)曲線,即使在調(diào)整相對(duì)權(quán)重后,它也能很好地優(yōu)化獎(jiǎng)勵(lì)的位置部分。
圖 1 。訓(xùn)練曲線上的三指操縱任務(wù)使用獎(jiǎng)勵(lì)函數(shù)類似于以前的作品。獎(jiǎng)勵(lì)的性質(zhì)使得政策難以優(yōu)化,尤其是實(shí)現(xiàn)定向目標(biāo)。
先前的工作已經(jīng)證明了使用神經(jīng)網(wǎng)絡(luò)時(shí)空間旋轉(zhuǎn)的交替表示的好處。此外,已經(jīng)證明,這種方式的混合損失會(huì)導(dǎo)致只朝著優(yōu)化單一目標(biāo)的方向崩潰。該圖表暗示了類似的行為,其中只有職位獎(jiǎng)勵(lì)被優(yōu)化。
受此啟發(fā),我們?cè)?SO ( 3 )中為我們的 6 自由度休息問題尋找姿勢(shì)表示。這也會(huì)自然地通過強(qiáng)化學(xué)習(xí)以適合優(yōu)化的方式權(quán)衡職位和輪換獎(jiǎng)勵(lì)。
使用遠(yuǎn)程機(jī)器人縮小 Sim2Real 差距
獲得物理機(jī)器人資源的問題因新冠病毒 -19 大流行而加劇。那些之前有幸在他們的研究小組中接觸到機(jī)器人的人發(fā)現(xiàn),能夠接觸到機(jī)器人的人數(shù)大大減少了。那些依賴其他機(jī)構(gòu)提供硬件的機(jī)構(gòu)往往由于物理距離限制而完全疏遠(yuǎn)。
我們的工作證明了機(jī)器人即服務(wù)( RaaS )方法與機(jī)器人學(xué)習(xí)相結(jié)合的可行性。一小隊(duì)接受過維護(hù)機(jī)器人培訓(xùn)的人員和另一隊(duì)研究人員可以上傳一份經(jīng)過培訓(xùn)的政策,并遠(yuǎn)程收集數(shù)據(jù)進(jìn)行后處理。
雖然我們的研究團(tuán)隊(duì)主要在北美,但物理機(jī)器人在歐洲。在整個(gè)項(xiàng)目期間,我們的開發(fā)團(tuán)隊(duì)從來沒有和我們工作的機(jī)器人呆在同一個(gè)房間里。遠(yuǎn)程訪問意味著我們無法改變手頭的任務(wù)以使其更容易。它還限制了我們可以進(jìn)行的迭代和實(shí)驗(yàn)的種類。例如,合理的系統(tǒng)識(shí)別是不可能的,因?yàn)槲覀兊牟呗栽谡麄€(gè) f ARM 中隨機(jī)選擇的機(jī)器人上運(yùn)行。
盡管缺乏物理訪問,但我們發(fā)現(xiàn),我們能夠通過多種技術(shù)的組合,制定出一個(gè)穩(wěn)健且有效的策略來解決 6 自由度休息任務(wù):
真實(shí) GPU – 加速仿真
無模型 RL
域隨機(jī)化
任務(wù)適當(dāng)?shù)淖藙?shì)表示
方法概述
我們的系統(tǒng)使用 NVIDIA V100 或 NVIDIA NVIDIA 3090 RTX 在 16384 個(gè)環(huán)境中并行使用 GPU 健身房模擬器進(jìn)行訓(xùn)練。然后,利用上傳的演員權(quán)重,在位于德國(guó)大西洋彼岸的三指機(jī)器人上遠(yuǎn)程進(jìn)行推理。我們執(zhí)行 Sim2Real 傳輸?shù)幕A(chǔ)設(shè)施由真正的機(jī)器人挑戰(zhàn)的組織者提供。
圖 2 。培訓(xùn)系統(tǒng)流程圖
收集并處理培訓(xùn)示例
使用 ISAAC 健身房模擬器,我們收集了高通量體驗(yàn)( NVIDIA RTX 3090 上每秒約 10 萬個(gè)樣本)。樣例的對(duì)象姿勢(shì)和目標(biāo)姿勢(shì)與對(duì)象形狀的八個(gè)關(guān)鍵點(diǎn)對(duì)應(yīng)。將領(lǐng)域隨機(jī)化應(yīng)用于觀測(cè)和環(huán)境參數(shù),以模擬真實(shí)機(jī)器人和攝像機(jī)本體感受傳感器的變化。這些觀察結(jié)果,以及來自模擬器的一些特權(quán)狀態(tài)信息,然后被用來訓(xùn)練我們的政策。
培訓(xùn)政策
我們的策略是使用近端策略優(yōu)化( PPO )算法來最大化定制獎(jiǎng)勵(lì)。我們的獎(jiǎng)勵(lì)激勵(lì)政策平衡機(jī)器人手指與物體的距離、移動(dòng)速度以及從物體到指定目標(biāo)位置的距離。它有效地解決了這項(xiàng)任務(wù),盡管它是一種廣泛適用于手部操作應(yīng)用的通用公式。該策略輸出每個(gè)機(jī)器人電機(jī)的扭矩,然后將其傳回模擬環(huán)境。
將策略轉(zhuǎn)移到真正的機(jī)器人并運(yùn)行推理
在我們訓(xùn)練了策略之后,我們將其上傳到真實(shí)機(jī)器人的控制器。這個(gè)立方體是用三個(gè)攝像頭在系統(tǒng)上跟蹤的。我們將系統(tǒng)提供的本體感知信息與轉(zhuǎn)換的關(guān)鍵點(diǎn)表示結(jié)合起來,為策略提供輸入。我們重復(fù)了基于攝像頭的立方體姿勢(shì)觀察,以進(jìn)行后續(xù)的策略評(píng)估,從而使策略能夠利用機(jī)器人可用的更高頻率本體感受數(shù)據(jù)。然后,從系統(tǒng)收集的數(shù)據(jù)用于確定策略的成功率。
機(jī)器人上的跟蹤系統(tǒng)目前只支持立方體。然而,這在將來可以擴(kuò)展到任意對(duì)象。
Results
姿勢(shì)的關(guān)鍵點(diǎn)表示大大提高了成功率和收斂性。
圖 3 。為不同的訓(xùn)練代理繪制真實(shí)機(jī)器人的成功率。 O-PQ 和 O-KP 分別表示位置+四元數(shù)和關(guān)鍵點(diǎn)觀測(cè), R-PQ 和 R-KP 分別表示線性+角度和基于關(guān)鍵點(diǎn)的位移。每個(gè)平均數(shù) 由 N = 40 個(gè)試驗(yàn)和基于 80% 置信區(qū)間計(jì)算的誤差條組成。
我們證明了使用我們的關(guān)鍵點(diǎn)表示法的策略,無論是在提供給策略的觀察中還是在獎(jiǎng)勵(lì)計(jì)算中,都比使用位置+四元數(shù)表示法獲得了更高的成功率。最高性能來自于對(duì)這兩個(gè)元素使用替代表示的策略。
圖 4 。無領(lǐng)域隨機(jī)和有領(lǐng)域隨機(jī)的訓(xùn)練過程中的成功率。每條曲線是五個(gè)種子的平均值;陰影區(qū)域顯示標(biāo)準(zhǔn)偏差。不帶 DR 的培訓(xùn)將顯示為 1B 步驟,以驗(yàn)證績(jī)效;初始訓(xùn)練后, DR 的使用對(duì)模擬成功率沒有太大影響。
我們進(jìn)行了實(shí)驗(yàn),以了解關(guān)鍵點(diǎn)的使用如何影響我們經(jīng)過訓(xùn)練的策略的速度和收斂水平??梢钥闯?,使用關(guān)鍵點(diǎn)作為獎(jiǎng)勵(lì)的一部分大大加快了培訓(xùn),提高了最終成功率,并減少了培訓(xùn)策略之間的差異??紤]到使用關(guān)鍵點(diǎn)作為獎(jiǎng)勵(lì)的一部分的簡(jiǎn)單性和普遍性,差異的大小令人驚訝。
經(jīng)過培訓(xùn)的策略可以直接從模擬器部署到遠(yuǎn)程真實(shí)機(jī)器人。
圖 6 顯示了一種我們稱之為“掉落和重新抓取”的緊急行為。在這個(gè)動(dòng)作中,機(jī)器人學(xué)會(huì)在立方體接近正確位置時(shí)掉落立方體,重新抓取立方體,然后將其撿起來。這使得機(jī)器人能夠在正確的位置穩(wěn)定地抓住立方體,從而獲得更成功的嘗試。值得注意的是,這段視頻是實(shí)時(shí)的,不會(huì)以任何方式加速。
機(jī)器人還學(xué)習(xí)利用立方體在競(jìng)技場(chǎng)中正確位置的運(yùn)動(dòng),作為在地面上同時(shí)旋轉(zhuǎn)立方體的機(jī)會(huì)。這有助于在遠(yuǎn)離手指工作區(qū)中心的挑戰(zhàn)性目標(biāo)位置實(shí)現(xiàn)正確抓取。
我們的政策也很穩(wěn)健,有助于降低成本。機(jī)器人可以從一個(gè)從手上掉下來的立方體中恢復(fù),并從地面上取回它。
對(duì)物理和物體變化的魯棒性
我們發(fā)現(xiàn),我們的策略對(duì)模擬中環(huán)境參數(shù)的變化具有魯棒性。例如,它優(yōu)雅地處理了立方體的上下縮放,其范圍遠(yuǎn)遠(yuǎn)超過了隨機(jī)化。
令人驚訝的是,我們發(fā)現(xiàn)我們的策略能夠?qū)?0-shot 推廣到其他對(duì)象,例如長(zhǎng)方體或球,
由于策略自身的健壯性,在規(guī)模和對(duì)象上進(jìn)行了泛化。我們不給它任何形狀信息。關(guān)鍵點(diǎn)保持在立方體上的相同位置。
結(jié)論
我們的方法通過基于 GPU 的大規(guī)模仿真展示了一條可行的機(jī)器人學(xué)習(xí)路徑。在本文中,我們向您展示了如何使用中等水平的計(jì)算資源(桌面級(jí)計(jì)算)來訓(xùn)練策略,并將其傳輸?shù)竭h(yuǎn)程機(jī)器人。我們還表明,這些策略對(duì)環(huán)境和被操縱對(duì)象中的各種變化具有魯棒性。我們希望我們的工作能夠成為研究人員向前邁進(jìn)的平臺(tái)。
NVIDIA 還宣布廣泛支持具有開放機(jī)器人技術(shù)的機(jī)器人操作系統(tǒng)( ROS )。這一重要的 ISAAC ROS 公告強(qiáng)調(diào)了 NVIDIA 人工智能感知技術(shù)如何加速人工智能在 ROS 社區(qū)的應(yīng)用,以幫助機(jī)器人專家、研究人員和機(jī)器人用戶開發(fā)、測(cè)試和管理下一代基于人工智能的機(jī)器人。
關(guān)于作者
Varun Lodaya 是多倫多大學(xué)計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)專業(yè)的本科生。他是 PAIR 研究實(shí)驗(yàn)室和病媒研究所的成員。
Animesh Garg 是多倫多大學(xué)計(jì)算機(jī)科學(xué)助理教授 CVK3 NVIDIA 的資深研究科學(xué)家,也是向量研究所的一名教員。他在加州大學(xué)伯克利分校獲得博士學(xué)位,是斯坦福人工智能實(shí)驗(yàn)室的博士后。他致力于廣義自治的算法基礎(chǔ),使基于人工智能的機(jī)器人能夠與人類一起工作。他的工作在機(jī)器人學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域獲得了多項(xiàng)研究獎(jiǎng)。
審核編輯:郭婷
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28580瀏覽量
207804 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5063瀏覽量
103439 -
gpu
+關(guān)注
關(guān)注
28文章
4764瀏覽量
129168
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論