在倉(cāng)庫(kù)與家庭場(chǎng)景中,為了進(jìn)一步打造出能夠與人類(lèi)進(jìn)行安全、有效合作的機(jī)器人,NVIDIA 西雅圖 AI 機(jī)器人研究實(shí)驗(yàn)室(Seattle AI Robotics Research Lab)的研究人員,開(kāi)發(fā)出了一種讓機(jī)器人能夠與人們遞接物體的人機(jī)交互方法。
該系統(tǒng)目前還處于概念驗(yàn)證階段。與以往方法相比,這個(gè)方法可以實(shí)現(xiàn)更流暢的遞接,進(jìn)而幫助倉(cāng)庫(kù)機(jī)器人,甚至廚房助手機(jī)器人更好地進(jìn)行人機(jī)交互。
解決這個(gè)問(wèn)題的關(guān)鍵在于,需要開(kāi)發(fā)一套感知系統(tǒng)來(lái)精確識(shí)別手和遞接物體的各種姿態(tài)。在遞接物體時(shí),人們可能正在專(zhuān)注于其他事情,手和物體通常會(huì)相互遮擋。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)將該方法分成了多個(gè)階段。
首先,該團(tuán)隊(duì)定義了一組握持動(dòng)作,這組動(dòng)作描述了人手進(jìn)行遞接時(shí)握持物體的方式。
研究人員在其論文中解釋道:“當(dāng)用手握住一個(gè)物體時(shí),手的姿勢(shì)可分為打開(kāi)手掌、捏住底部、捏住頂部、捏住側(cè)面或拿起。如果手中沒(méi)有任何物體,那么可能是在等待機(jī)器人遞交物體或者未發(fā)生這個(gè)動(dòng)作。”
然后他們?cè)邳c(diǎn)云上訓(xùn)練了一個(gè)深層神經(jīng)網(wǎng)絡(luò),用于預(yù)測(cè)人類(lèi)的握持類(lèi)別。研究人員使用 Microsoft Azure Kinect RGBD 攝像頭創(chuàng)建了一個(gè)數(shù)據(jù)集,這組數(shù)據(jù)集包含了 8 個(gè)實(shí)驗(yàn)對(duì)象的不同手形和手勢(shì)。
研究人員表示:“我們向?qū)嶒?yàn)對(duì)象展示了一張用手握持物體的圖片,接著記錄實(shí)驗(yàn)對(duì)象執(zhí)行相似動(dòng)作時(shí)的姿勢(shì),記錄時(shí)間為 20 至 60 秒,隨后在整個(gè)圖像序列中標(biāo)出相應(yīng)的人類(lèi)握持類(lèi)別。在記錄期間,實(shí)驗(yàn)對(duì)象的身體和手可以移動(dòng)到不同的位置,以使攝像頭的視角多樣化。我們分別記錄了每名實(shí)驗(yàn)對(duì)象的左手和右手,整個(gè)數(shù)據(jù)集總共包含 151551 張圖像?!?/p>
5 種人類(lèi)握持類(lèi)型與2種空手類(lèi)型涵蓋了人們所習(xí)慣的各種物體握持方式。研究人員將這些動(dòng)作與機(jī)器人的各種典型握持方向相關(guān)聯(lián),最大程度上減少了遞接過(guò)程中人們的負(fù)擔(dān)(以坐標(biāo)系統(tǒng)和黃色箭頭表示)。
在下一階段,研究人員根據(jù)人類(lèi)的握持動(dòng)作調(diào)整了機(jī)器人的握持方向。
鑒于 PointNet ++ 架構(gòu)在許多機(jī)器人應(yīng)用上都取得了極佳效果(如無(wú)標(biāo)記遠(yuǎn)程操作系統(tǒng)和握持生成等),因此為了完成這項(xiàng)任務(wù),研究人員使用該架構(gòu)訓(xùn)練人類(lèi)握持分類(lèi)網(wǎng)絡(luò)。
研究人員表示:“手的周?chē)植贾c(diǎn)云,該網(wǎng)絡(luò)可以根據(jù)定義的握持類(lèi)別對(duì)手的動(dòng)作進(jìn)行分類(lèi)。定義的握持類(lèi)別也可以被用于進(jìn)一步的機(jī)器人握持動(dòng)作設(shè)計(jì)?!?/p>
遞接框架概述。該框架采用以手部檢測(cè)為中心的點(diǎn)云,然后使用基于 PointNet ++ 的模型,根據(jù) 7 種握持類(lèi)別對(duì)手的動(dòng)作進(jìn)行分類(lèi)。這七種握持類(lèi)別涵蓋了人們所習(xí)慣的各種物體握持方式。然后,該任務(wù)模型據(jù)此調(diào)整機(jī)器人握持動(dòng)作的設(shè)計(jì)。
在該步驟中,團(tuán)隊(duì)為機(jī)器人設(shè)計(jì)了典型的握持方向,減少了機(jī)器人抓住人手的可能性,使機(jī)器人的運(yùn)動(dòng)和軌跡盡可能自然。
研究人員使用一個(gè)內(nèi)置 CUDA 10.2 和 PyTorch 框架的 NVIDIA TITAN X GPU 對(duì)該系統(tǒng)進(jìn)行了訓(xùn)練,并通過(guò) 1 個(gè) NVIDIA RTX 2080 Ti GPU 完成了測(cè)試。
研究人員總結(jié)道:“與兩種基礎(chǔ)方法相比,這種方法能夠不斷提高握持的成功率,縮短總執(zhí)行時(shí)間和試驗(yàn)時(shí)間。這證明了該方法的有效性和可靠性?!?/p>
(a)人手握持分類(lèi)的準(zhǔn)確性。(b)人類(lèi)手部狀態(tài)分類(lèi)和 PoseCNN 之間的物體遺漏檢出率比較。在很多情況下,手會(huì)遮擋物體,因此很難獲得準(zhǔn)確的物體姿態(tài)估計(jì)值。
在未來(lái)的測(cè)試中,研究人員計(jì)劃訓(xùn)練該系統(tǒng)掌握更多握持類(lèi)型,進(jìn)一步增強(qiáng)他們的數(shù)據(jù)集。
-
人機(jī)交互
+關(guān)注
關(guān)注
12文章
1215瀏覽量
55465 -
機(jī)器人
+關(guān)注
關(guān)注
211文章
28618瀏覽量
207922 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24777
原文標(biāo)題:NVIDIA 研究人員變身機(jī)器人 AI 訓(xùn)練師 ,改善人機(jī)交互
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論