仿真是幫助機(jī)器人學(xué)習(xí)感知(從攝像機(jī)圖像中了解世界)、規(guī)劃(制定解決問題的行動序列)和控制(產(chǎn)生改變機(jī)器人位置和方向的電機(jī)指令)等新技能的一個必要工具。
機(jī)器人裝配在汽車、航空航天、電子和醫(yī)療設(shè)備行業(yè)中無處不在。設(shè)置機(jī)器人執(zhí)行裝配任務(wù)是一個耗時且昂貴的過程,需要一整支團(tuán)隊來設(shè)計機(jī)器人的軌跡并仔細(xì)劃定邊界。
在其他機(jī)器人技術(shù)領(lǐng)域,仿真已經(jīng)成為不可或缺的工具,尤其是在發(fā)展 AI 的過程中。但機(jī)器人裝配涉及幾何復(fù)雜的緊密公差零件之間的高精度接觸。長期以來,仿真此類接觸緊密的活動在計算上的難度極高。
NVIDIA 近期在機(jī)器人裝配方面取得了進(jìn)展,這使得超實時仿真成為可能。這種高速仿真能夠使用強(qiáng)大、先進(jìn)的強(qiáng)化學(xué)習(xí)(RL)技術(shù)。借助 RL,虛擬機(jī)器人能夠探索仿真環(huán)境、獲得豐富的經(jīng)驗,并通過智能試錯來學(xué)習(xí)有用的技能。將 RL 用于機(jī)器人裝配,可以最大限度地減少對操作者專業(yè)知識的需求、增加對變化的魯棒性并減少硬件磨損。sim-to-real一詞指的就是將仿真環(huán)境中的技能轉(zhuǎn)移到現(xiàn)實世界。
將 RL 用于機(jī)器人裝配的最大挑戰(zhàn)之一,是機(jī)器人在仿真中學(xué)習(xí)的技能通常不能有效地轉(zhuǎn)移到現(xiàn)實世界的機(jī)器人上。出現(xiàn)這個問題是因為仿真器與現(xiàn)實世界之間存在物理學(xué)、電機(jī)信號和傳感器信號等方面的微妙差異。此外,現(xiàn)實世界的機(jī)器人可能會遇到在仿真器中從未見過的情況。這些問題被統(tǒng)稱為 reality gap(現(xiàn)實差距)。
什么是 IndustReal?
為了將 RL 用于具有挑戰(zhàn)性的裝配任務(wù)并解決現(xiàn)實差距問題,我們開發(fā)了 IndustReal。IndustReal 是一套用于幫助機(jī)器人解決仿真中的裝配任務(wù),并將這些能力轉(zhuǎn)移到現(xiàn)實世界的算法、系統(tǒng)和工具。
IndustReal 主要提供:
-
一套使仿真機(jī)器人通過 RL 解決復(fù)雜裝配任務(wù)的算法。
-
一種解決現(xiàn)實差距,并在現(xiàn)實世界中部署時穩(wěn)定機(jī)器人所學(xué)技能的方法。
-
一個現(xiàn)實世界機(jī)器人系統(tǒng),將在仿真中訓(xùn)練的裝配技能端到端地轉(zhuǎn)移到現(xiàn)實。
-
使研究人員和工程師能夠復(fù)制該系統(tǒng)的軟硬件工具套件。
-
IndustRealKit 是一套受 NIST Task Board 1(既定的機(jī)器人裝配基準(zhǔn))啟發(fā)的 3D 可打印資產(chǎn) CAD 模型。
-
IndustRealLib 是一個輕量級的 Python 庫,可將在 NVIDIA Isaac Gym 仿真器中學(xué)到的技能部署到現(xiàn)實世界的 Franka Emika Panda 機(jī)器人臂上。
圖 1. 機(jī)器人在仿真中執(zhí)行插入釘子
和裝配齒輪的策略(上一行),
然后將這些策略部署到現(xiàn)實世界中(下一行)。
訓(xùn)練算法和部署方法
在這項工作中,我們提出了三種算法幫助機(jī)器人在仿真中使用 RL 學(xué)習(xí)裝配技能。我們還提出了一種使現(xiàn)實世界的機(jī)器人能夠執(zhí)行這些技能的部署方法。
仿真感知策略更新
像 NVIDIA Isaac Gym 和 NVIDIA Isaac Sim 這樣的機(jī)器人仿真器在滿足現(xiàn)實世界的物理學(xué)同時,還要滿足許多物理限制,其中最重要的一項是物體不能相互重疊,或者說“互穿”。在大多數(shù)仿真器中,物體之間的小規(guī)?;ネú豢杀苊?,尤其是在實時執(zhí)行時。
我們引入了仿真感知策略更新(SAPU),為仿真機(jī)器人提供關(guān)于仿真預(yù)測何時可靠或不可靠的認(rèn)知。具體而言,在 SAPU 中,我們在 NVIDIA Warp 中實現(xiàn)了一個基于 GPU 的模塊,從而在機(jī)器人學(xué)習(xí)如何使用 RL 裝配零件時檢查是否存在互穿。
當(dāng)互穿規(guī)模小時,我們對機(jī)器人的仿真體驗進(jìn)行加權(quán),而當(dāng)互穿規(guī)模大時,我們就減少加權(quán)。該策略可以防止仿真機(jī)器人利用不準(zhǔn)確的物理規(guī)則解決任務(wù),進(jìn)而導(dǎo)致無法將它學(xué)習(xí)的技能轉(zhuǎn)移到現(xiàn)實世界中。
有向距離場獎勵
為了使用 RL 解決任務(wù),必須定義一個獎勵信號(例如衡量機(jī)器人在解決任務(wù)方面取得了多少進(jìn)展)。然而,在裝配過程中,很難根據(jù)形狀復(fù)雜零件的對齊情況來定義一個獎勵信號。
于是我們引入了有向距離場(SDF)獎勵,以便衡量仿真零件在裝配過程中的對齊程度。SDF 是一個數(shù)學(xué)函數(shù),它可以從一個物體上的點計算出到另一個物體表面的最短距離。這種自然、通用的方法可以描述零件之間的對齊情況,高度對稱或不對稱都不例外。
在 SDF 獎勵中,我們將獎勵信號定義為裝配過程中一個零件的當(dāng)前位置和目標(biāo)位置之間的 SDF 距離。
圖 2. 一個圓形釘子的 SDF 2D 切片可視化圖。
顏色代表從指定的點到釘子表面的最短距離
基于樣本的課程
課程學(xué)習(xí)是一種成熟的 RL 方法,可解決涉及到許多單獨步驟或動作的問題。畢竟,機(jī)器人在學(xué)習(xí)過程中所面對的任務(wù)難度會逐漸增加。
在我們的裝配任務(wù)中,機(jī)器人首先解決簡單的裝配問題(即零件已完成部分裝配),然后再升級到更難的問題(即零件已被拆解)。
隨著零件之間的初始接觸逐漸減少,零件會在某個時刻不再有初始接觸點。由于機(jī)器人的知識已過度偏向于部分裝配的情況,這種難度上的陡增會導(dǎo)致性能崩潰。
我們?yōu)?span style="font-size:16px;letter-spacing:.578px;">仿真機(jī)器人引入了一個基于樣本的課程(SBC)來逐步學(xué)習(xí)復(fù)雜的裝配任務(wù)。在課程的所有階段都要求機(jī)器人解決各種難度范圍內(nèi)的抽樣裝配問題,但會逐漸刪除問題分布中最簡單的問題。在課程的最后階段,各個零件在一開始就完全不接觸。請看下面的可視化圖。
圖 3. 基于樣本的課程的不同階段。
任務(wù)難度從左到右隨插頭(黃色球體)
初始位置的分布遠(yuǎn)離插座(米色)而增加。
策略級行動整合器
在最常見的機(jī)器人 RL 應(yīng)用中,通過對機(jī)器人的姿勢(即其位置和方向)進(jìn)行增量調(diào)整來產(chǎn)生機(jī)器人的動作。這些增量被應(yīng)用于機(jī)器人的當(dāng)前姿態(tài),以產(chǎn)生一個瞬時的目標(biāo)姿勢。如果應(yīng)用于現(xiàn)實世界中的機(jī)器人,由于實際機(jī)器人的復(fù)雜性,這種策略可能會導(dǎo)致機(jī)器人的最終姿勢與其最終目標(biāo)姿勢之間產(chǎn)生差異。
我們還提出了一個策略級行動整合器(PLAI)。這是一種簡單的算法,在現(xiàn)實世界的機(jī)器人上部署學(xué)習(xí)到的技能時,可以減少穩(wěn)態(tài)(即長期的)錯誤。我們將增量調(diào)整應(yīng)用于先前的瞬時目標(biāo)姿勢,以產(chǎn)生新的瞬時目標(biāo)姿勢。
在數(shù)學(xué)上(類似于經(jīng)典 PID 控制器的積分項),這種策略產(chǎn)生的瞬時目標(biāo)姿勢是初始姿勢和機(jī)器人隨時間產(chǎn)生的動作之和。該技術(shù)即便在復(fù)雜的實際情況下,也可以使機(jī)器人的最終姿勢與最終目標(biāo)姿勢之間的誤差最小化。
機(jī)器人正試圖移動到一個目標(biāo)位置,期間我們比較了標(biāo)準(zhǔn)(標(biāo)稱)策略、PLAI 算法和經(jīng)典的 PID 控制器在抵達(dá)任務(wù)上的表現(xiàn)。請看下面的可視化圖。
圖 4. 機(jī)器人使用標(biāo)準(zhǔn)策略、PLAI 算法和 PID 策略將其指尖移動到粉色球體目標(biāo)的比較(上一行:在重力補(bǔ)償不完全的情況下進(jìn)行比較。下一行:在未建立關(guān)節(jié)處摩擦力模型的情況下進(jìn)行比較)
系統(tǒng)和工具
通過 IndustReal 進(jìn)行現(xiàn)實世界實驗所使用的裝置,包括一個 Franka Emika Panda 機(jī)器人臂、安裝在機(jī)器人手上的英特爾 RealSense D435 攝像頭,以及一個帶有零件的裝配平臺。
圖 5. 物理機(jī)器人實驗設(shè)置:一個 Franka Emika Panda 機(jī)器人臂,機(jī)器人手上裝有一個英特爾 RealSense D435 攝像頭,底部是一個帶有零件的裝配平臺。
IndustReal 提供用于復(fù)制本文中介紹的系統(tǒng)所需要的硬件(IndustRealKit)和軟件(IndustRealLib)。
IndustRealKit 包含可 3D 打印的 20 個零件的 CAD 模型,涵蓋了這項工作中使用到的所有零件。這些模型帶有 6 個釘子支架、6 個釘子插座、3 個齒輪、1 個齒輪底座(帶 3 個齒輪軸)以及 4 個 NEMA 連接器和插座支架,均使用美標(biāo)插頭和電源插座。
采購清單包括 17 個零件:6 個金屬釘子(NIST 基準(zhǔn))、4 個 NEMA 連接器和插座、1 個光學(xué)平臺以及緊固件。
圖 6. IndustRealKit
IndustRealLib 是一個輕量級庫,包含了將在仿真中通過 RL 學(xué)到的技能部署到現(xiàn)實世界機(jī)器臂上所需要的代碼。具體而言,我們?yōu)橛脩籼峁┠_本,以便他們把在 NVIDIA Isaac Gym 仿真器中訓(xùn)練的控制策略(即將傳感器信號映射到機(jī)器人行動的神經(jīng)網(wǎng)絡(luò))迅速部署到 Franka Emika Panda 機(jī)器人上。
未來發(fā)展方向
IndustReal 展示了一條在機(jī)器人裝配任務(wù)中充分發(fā)揮仿真潛力的路徑。隨著仿真變得更加精準(zhǔn)和高效,以及更多仿真轉(zhuǎn)現(xiàn)實的轉(zhuǎn)移技術(shù)被源源不斷地開發(fā)出來,我們已經(jīng)預(yù)見到了將這項工作擴(kuò)展到制造業(yè)其他任務(wù)(如螺絲緊固、電纜布線和焊接等)的眾多可能性。我們有理由相信,有朝一日,每一個先進(jìn)的工業(yè)制造機(jī)器人都將使用這種技術(shù)進(jìn)行仿真訓(xùn)練,以便可以無縫、靈活地轉(zhuǎn)移到現(xiàn)實世界。
我們的下一步是將該系統(tǒng)擴(kuò)展到包括更多的對象、裝配任務(wù)和復(fù)雜的環(huán)境。我們還打算開發(fā)更多的仿真轉(zhuǎn)現(xiàn)實技術(shù),以便更加經(jīng)濟(jì)、可靠、安全而順利地轉(zhuǎn)移學(xué)到的技能。
如何使用 IndustReal
-
請訪問 IndustReal project page(https://sites.google.com/nvidia.com/industreal),查看論文和摘要視頻的鏈接。敬請關(guān)注即將推出的 IndustralKit 和 IndustralLib。
-
下載獨立運(yùn)行的NVIDIA Isaac Gym Preview Release(https://developer.nvidia.cn/isaac-gym)和 NVIDIA Isaac Gym Environments(https://github.com/NVIDIA-Omniverse/IsaacGymEnvs)。其中包含了在 IndustReal中訓(xùn)練裝配技能的基礎(chǔ) ——NVIDIA Omniverse factory environments(https://github.com/NVIDIA-Omniverse/IsaacGymEnvs/blob/main/docs/factory.md)。
-
下載 Omniverse 驅(qū)動的新一代 NVIDIA Isaac Sim(https://developer.nvidia.cn/zh-cn/isaac-sim)。
點擊“閱讀原文”,或掃描下方海報二維碼,觀看 NVIDIA 創(chuàng)始人兼 CEO 黃仁勛在 COMPUTEX 2023 的主題演講直播回放,主題演講中文字幕版已上線,了解 AI、圖形及其他領(lǐng)域的最新進(jìn)展!
原文標(biāo)題:將工業(yè)機(jī)器人裝配任務(wù)從仿真轉(zhuǎn)為現(xiàn)實
文章出處:【微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3823瀏覽量
91521
發(fā)布評論請先 登錄
相關(guān)推薦
評論