創(chuàng)建動(dòng)作自然并對(duì)各種控制輸入做出智能響應(yīng)的交互式仿真人形機(jī)器人仍是計(jì)算機(jī)動(dòng)畫(huà)和機(jī)器人技術(shù)領(lǐng)域最具挑戰(zhàn)性的問(wèn)題之一。NVIDIA Isaac Sim等高性能 GPU 加速仿真器以及使用NVIDIA Isaac Lab的機(jī)器人策略訓(xùn)練,使交互式人形機(jī)器人的訓(xùn)練取得了顯著的進(jìn)展。
最近推出的 Adversarial Motion Priors 和 Human2Humanoid 為仿真機(jī)器人和真實(shí)機(jī)器人帶來(lái)了重大的飛躍。但它們有一個(gè)共同的缺陷——每次改變?nèi)诵螜C(jī)器人的控制方式,都需要重新訓(xùn)練一個(gè)新的專(zhuān)用控制器。
本文將介紹 MaskedMimic,這是一個(gè)通過(guò)運(yùn)動(dòng)補(bǔ)全實(shí)現(xiàn)人形機(jī)器人統(tǒng)一全身控制的框架。MaskedMimic 是NVIDIA Project GR00T項(xiàng)目的一部分,該項(xiàng)目旨在推動(dòng)通用人形機(jī)器人開(kāi)發(fā)。這項(xiàng)研究工作為 GR00T-Control 做出了貢獻(xiàn),GR00T-Control 是一套用于全身控制的先進(jìn)運(yùn)動(dòng)規(guī)劃和控制程序庫(kù)、模型、策略與參考工作流。
克服任務(wù)特定控制
傳統(tǒng)的人形機(jī)器人控制方法因其任務(wù)特定性而存在固有局限。例如,專(zhuān)用于路徑跟蹤的控制器無(wú)法處理需要頭部和手部協(xié)調(diào)跟蹤的遠(yuǎn)程操作任務(wù)。同樣,訓(xùn)練用于追蹤演示者全身動(dòng)作的控制器,也無(wú)法適應(yīng)僅需追蹤部分關(guān)鍵點(diǎn)的場(chǎng)景。
這種局限性帶來(lái)了巨大的挑戰(zhàn),包括:
修改控制方案需要設(shè)計(jì)新的訓(xùn)練環(huán)境,并設(shè)置特定的獎(jiǎng)勵(lì)和觀(guān)察指標(biāo),并從頭開(kāi)始訓(xùn)練一個(gè)新的控制器。
在不同控制模式之間切換變得不切實(shí)際。
開(kāi)發(fā)和部署周期漫長(zhǎng),資源消耗大。
運(yùn)動(dòng)補(bǔ)全提供了整合性解決方案
生成式 AI 領(lǐng)域的最新進(jìn)展表明,在文本、圖像甚至動(dòng)畫(huà)等多個(gè)領(lǐng)域中使用補(bǔ)全 (inpainting)技術(shù)都取得了顯著的成功。這些方法的共同點(diǎn)是,它們通過(guò)訓(xùn)練學(xué)習(xí)從掩碼(不完整)或局部視圖中重建完整數(shù)據(jù)。MaskedMimic 將這一模式應(yīng)用于全身人形機(jī)器人控制任務(wù)。
MaskedMimic 接受多種類(lèi)型的局部運(yùn)動(dòng)描述:
帶掩碼的關(guān)鍵幀:特定時(shí)間范圍內(nèi)所選身體部位的位置數(shù)據(jù)(例如帶有頭部/手部位置的 VR 遠(yuǎn)程操作數(shù)據(jù))。
場(chǎng)景交互:自然物體交互指令(例如“坐在這張椅子上”)。
文本描述:自然語(yǔ)言運(yùn)動(dòng)描述(例如“用右手揮手”)。
混合輸入:上述輸入的組合(例如帶有文體文本限制的路徑跟蹤)。
圖 1. MaskedMimic 通過(guò)不同的控制方案生成全身運(yùn)動(dòng)
MaskedMimic 的工作原理
訓(xùn)練MaskedMimic 經(jīng)過(guò)兩個(gè)階段的流程,該流程依托于一個(gè)包含人類(lèi)運(yùn)動(dòng)、運(yùn)動(dòng)文本描述和場(chǎng)景信息的龐大數(shù)據(jù)集。
這些數(shù)據(jù)展示了人類(lèi)如何運(yùn)動(dòng),但缺乏仿真機(jī)器人重現(xiàn)這些運(yùn)動(dòng)所需的電機(jī)動(dòng)作。
在該流程的第一階段,將針對(duì)全身運(yùn)動(dòng)跟蹤任務(wù),對(duì)強(qiáng)化學(xué)習(xí)智能體進(jìn)行訓(xùn)練。此模型會(huì)觀(guān)察機(jī)器人的本體感受、周?chē)匦我约八诓痪玫膶?lái)應(yīng)當(dāng)執(zhí)行的動(dòng)作。然后,它會(huì)預(yù)測(cè)重建所演示動(dòng)作所需的電機(jī)動(dòng)作。這可以被視為一個(gè)能夠適應(yīng)周?chē)匦蔚哪嫦蚰P汀?/p>
訓(xùn)練的第二階段是教師-學(xué)生在線(xiàn)蒸餾(teacher-student distillation)過(guò)程。第一階段的模型被用作固定的專(zhuān)家模型,不再進(jìn)行訓(xùn)練。
在訓(xùn)練過(guò)程中,人形機(jī)器人被初始化為一個(gè)隨機(jī)運(yùn)動(dòng)的隨機(jī)幀。當(dāng)專(zhuān)家觀(guān)察未經(jīng)修改的未來(lái)演示時(shí),學(xué)生會(huì)得到一個(gè)隨機(jī)的掩碼版本。
掩碼可能非常密集,從而為學(xué)生模型提供所有信息,包括每幀中的每個(gè)關(guān)節(jié)、文本以及場(chǎng)景信息。它也可能非常稀疏,例如只有文本或幾秒的頭部位置。
學(xué)生(MaskedMimic)的目標(biāo)是進(jìn)行運(yùn)動(dòng)補(bǔ)全。MaskedMimic 在獲得局部(掩碼)運(yùn)動(dòng)描述后,需要成功預(yù)測(cè)專(zhuān)家動(dòng)作,進(jìn)而再現(xiàn)原始的無(wú)掩碼運(yùn)動(dòng)演示。
運(yùn)動(dòng)補(bǔ)全
通過(guò)將控制和運(yùn)動(dòng)生成看作一個(gè)補(bǔ)全問(wèn)題可以實(shí)現(xiàn)廣泛的功能。例如,MaskedMimic 可以在仿真的虛擬世界中重建用戶(hù)的演示。
通過(guò)攝像頭推斷的運(yùn)動(dòng)可能包括所有的身體關(guān)鍵點(diǎn)。
另一方面,虛擬現(xiàn)實(shí)系統(tǒng)通常只包含一個(gè)跟蹤傳感器子集。Oculus 和 Apple Vision Pro 等常見(jiàn)系統(tǒng)可提供頭部和手部坐標(biāo)。
我們還測(cè)量了 VR 跟蹤的成功率和跟蹤誤差。實(shí)證結(jié)果表明,與專(zhuān)門(mén)為此任務(wù)優(yōu)化的控制器相比,性能有了很大提高。在沒(méi)有任何針對(duì)特定任務(wù)的訓(xùn)練或微調(diào)時(shí),MaskedMimic 統(tǒng)一控制器的性能優(yōu)于之前的專(zhuān)用控制器。
表 1. 跟蹤從未曾見(jiàn)過(guò)的 AMASS 測(cè)試集中
提取的 VR 信號(hào)(頭部和手部位置)的成功率
交互控制
該控制方案可根據(jù)用戶(hù)輸入生成新的運(yùn)動(dòng)而被復(fù)用。MaskedMimic 的統(tǒng)一策略能夠解決多種任務(wù),之前的研究則是通過(guò)訓(xùn)練多個(gè)不同的專(zhuān)用控制器解決問(wèn)題。
通過(guò)指定根節(jié)點(diǎn)(root)的未來(lái)位置和方向,就可以使用操縱桿控制器操縱 MaskedMimic。
同樣,可根據(jù)頭部位置和高度,指示 MaskedMimic 沿著一條路徑前進(jìn)。
另一項(xiàng)重要功能是場(chǎng)景互動(dòng)?;谀硞€(gè)物體對(duì) MaskedMimic 進(jìn)行調(diào)節(jié),就好比指示它“自然地與該物體互動(dòng)”。
MaskedMimic
統(tǒng)一控制系統(tǒng)的優(yōu)勢(shì)
MaskedMimic 有兩大顯著優(yōu)勢(shì):
出眾的性能:在一系列控制輸入中,MaskedMimic 的性能均優(yōu)于特定任務(wù)控制器。
零樣本泛化:MaskedMimic 展現(xiàn)出了整合通過(guò)不同訓(xùn)練方式所獲知識(shí)的能力,這類(lèi)似于生成式文本和圖像模型學(xué)習(xí)整合知識(shí)的方式。例如,雖然只在平坦和不受干擾的環(huán)境中接受過(guò)物體交互訓(xùn)練,但它能學(xué)會(huì)與放置在不規(guī)則表面上的未曾見(jiàn)過(guò)的物體進(jìn)行交互。
總結(jié)及未來(lái)的工作
MaskedMimic 代表了多功能人形機(jī)器人控制領(lǐng)域的一大進(jìn)步,它通過(guò)運(yùn)動(dòng)修補(bǔ)統(tǒng)一了不同的控制模式,同時(shí)保持了物理真實(shí)性。這項(xiàng)研究可以擴(kuò)展到幾個(gè)令人期待的領(lǐng)域,詳情如下。
機(jī)器人應(yīng)用:這項(xiàng)研究將能夠成功擴(kuò)展到真實(shí)機(jī)器人應(yīng)用。在仿真機(jī)器人(如 Unitree H1)上進(jìn)行訓(xùn)練,能夠讓真實(shí)機(jī)器人系統(tǒng)的控制變得更加直觀(guān)。
增強(qiáng)交互能力:目前,這項(xiàng)工作展示了非復(fù)雜地形和靜態(tài)場(chǎng)景。下一個(gè)重要里程碑可能是更復(fù)雜的動(dòng)態(tài)環(huán)境,如物體操縱和跑酷等。
技術(shù)改進(jìn):最后,這項(xiàng)工作已將動(dòng)畫(huà)作為重點(diǎn)。它可以部署在實(shí)時(shí)游戲和機(jī)器人系統(tǒng)中用于優(yōu)化推理速度,還可以部署在更加多樣化和不可預(yù)測(cè)的環(huán)境中,用于提高故障恢復(fù)能力。
欲了解包括源代碼和預(yù)訓(xùn)練模型在內(nèi)的更多信息,請(qǐng)?jiān)L問(wèn) MaskedMimic:通過(guò)掩碼運(yùn)動(dòng)補(bǔ)足實(shí)現(xiàn)基于物理學(xué)的統(tǒng)一角色控制。
開(kāi)始使用
NVIDIA Project GR00T 是一項(xiàng)旨在加速人形機(jī)器人開(kāi)發(fā)的研究計(jì)劃。如果您是人形機(jī)器人制造商或機(jī)器人軟件或硬件廠(chǎng)商,請(qǐng)申請(qǐng)加入 NVIDIA 人形機(jī)器人開(kāi)發(fā)者計(jì)劃。
通過(guò)新的開(kāi)發(fā)者入門(mén)指南和教程掌握 Isaac Lab 入門(mén)知識(shí)或從 Isaac Gym 遷移至 Isaac Lab。
查看 Isaac Lab 參考架構(gòu),了解使用 Isaac Lab 和 Isaac Sim 的端到端機(jī)器人學(xué)習(xí)流程。
了解更多有關(guān)頭部機(jī)器人公司如何使用 NVIDIA 平臺(tái)的信息,包括 1X、Agility Robotics、The AI Institute、Berkeley Humanoid、波士頓動(dòng)力、Field AI、傅利葉、銀河通用、Mentee Robotics、Skild AI、Swiss-Mile、宇樹(shù)科技和 XPENG Robotics。
北京時(shí)間 1 月 7 日(星期二)上午 10:30 觀(guān)看 NVIDIA CEO 黃仁勛在拉斯維加斯現(xiàn)場(chǎng)發(fā)表的 CES 開(kāi)幕主題演講。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28483瀏覽量
207437 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5002瀏覽量
103233 -
仿真
+關(guān)注
關(guān)注
50文章
4097瀏覽量
133711
原文標(biāo)題:物理仿真人形機(jī)器人的統(tǒng)一全身控制策略
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論