NVIDIA的研究人員開發(fā)了第一個(gè)可以教機(jī)器人僅通過觀察人類的行為來完成任務(wù)的深度學(xué)習(xí)系統(tǒng)。該方法利用合成數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò),是第一次在機(jī)器人上使用以圖像為中心的域隨機(jī)化方法。
來自NVIDIA的研究人員開發(fā)了一個(gè)基于深度學(xué)習(xí)的系統(tǒng),該系統(tǒng)可以教機(jī)器人僅通過觀察人類的行為來完成任務(wù)。該方法旨在加強(qiáng)人與機(jī)器人之間的交流,同時(shí)進(jìn)一步研究如何使人類無縫地與機(jī)器人一起工作。這是第一個(gè)這樣的系統(tǒng),研究由Stan Birchfield和Jonathan Tremblay領(lǐng)導(dǎo)。
“要想讓機(jī)器人在現(xiàn)實(shí)世界中執(zhí)行有用的任務(wù),必須要能很容易地將任務(wù)傳達(dá)給機(jī)器人。這包括預(yù)期的結(jié)果以及任何關(guān)于達(dá)到該結(jié)果的最佳方法的提示?!毖芯咳藛T在他們的研究報(bào)告中指出?!巴ㄟ^演示,用戶可以將任務(wù)傳達(dá)給機(jī)器人,并向機(jī)器人提供如何以最佳的方式執(zhí)行任務(wù)的線索?!?/p>
研究人員使用NVIDIA TITAN X GPU訓(xùn)練了一系列神經(jīng)網(wǎng)絡(luò)來執(zhí)行與感知、程序生成和程序執(zhí)行相關(guān)的任務(wù)。結(jié)果顯示,機(jī)器人能夠通過觀察現(xiàn)實(shí)世界的單個(gè)演示來學(xué)習(xí)任務(wù)。
該方法的工作方式:一個(gè)攝像機(jī)被用來捕獲場(chǎng)景的實(shí)時(shí)視頻流,并且通過兩個(gè)神經(jīng)網(wǎng)絡(luò)實(shí)時(shí)地對(duì)場(chǎng)景中對(duì)象的位置和關(guān)系進(jìn)行推斷。由此產(chǎn)生的知覺被輸入到另一個(gè)網(wǎng)絡(luò)中,該網(wǎng)絡(luò)生成一個(gè)解釋如何重建這些感知的計(jì)劃。 最后,一個(gè)執(zhí)行網(wǎng)絡(luò)讀取該計(jì)劃并為機(jī)器人生成動(dòng)作,同時(shí)考慮到當(dāng)前場(chǎng)景的狀態(tài),以確保對(duì)外部干擾的穩(wěn)健性。
一旦機(jī)器人得到一個(gè)任務(wù),它就會(huì)生成一個(gè)人類可讀取的關(guān)于重新執(zhí)行該任務(wù)所需步驟的描述。該描述讓用戶能夠在機(jī)器人執(zhí)行之前快速識(shí)別和糾正機(jī)器人對(duì)人類演示的解釋中的問題。
實(shí)現(xiàn)這種能力的關(guān)鍵是利用合成數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。目前訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法需要大量有標(biāo)記的訓(xùn)練數(shù)據(jù),這對(duì)這類系統(tǒng)來說是一個(gè)瓶頸。通過合成數(shù)據(jù)生成,不用太費(fèi)力就可以生成幾乎無限的標(biāo)記訓(xùn)練數(shù)據(jù)。
這也是第一次在機(jī)器人上使用以圖像為中心的域隨機(jī)化方法。域隨機(jī)化(domain randomization)是一種產(chǎn)生大量多樣性的合成數(shù)據(jù)的技術(shù),然后愚弄感知網(wǎng)絡(luò)將真實(shí)世界的數(shù)據(jù)看作是其訓(xùn)練數(shù)據(jù)的另一種變體。研究人員選擇以圖像為中心的方式處理數(shù)據(jù),以確保網(wǎng)絡(luò)不依賴于攝像機(jī)或環(huán)境。
研究人員說:“如描述所示,這個(gè)感知網(wǎng)絡(luò)適用于任何固態(tài)的現(xiàn)實(shí)世界物體,這些物體可以通過其3D邊界立方體(bounding cuboid)來模擬。”“盡管訓(xùn)練過程中從未觀察到真實(shí)的圖像,但感知網(wǎng)絡(luò)能夠在真實(shí)圖像中可靠地檢測(cè)到物體的bounding cuboid,即使在有嚴(yán)重的遮擋的情況下也是如此。”
在他們的演示中,研究團(tuán)隊(duì)用幾個(gè)彩色積木和一輛玩具汽車訓(xùn)練目標(biāo)檢測(cè)器。系統(tǒng)被教授“塊”(blocks)的物理關(guān)系,不管這些“塊”是堆疊在一起還是彼此相鄰放置。
在上面的演示視頻中,人類操作員向機(jī)器人展示了一組立方塊。系統(tǒng)然后推斷一個(gè)適當(dāng)?shù)某绦虿凑_的順序?qū)⒘⒎綁K正確地放置好。因?yàn)樗趫?zhí)行過程中會(huì)考慮當(dāng)前世界的狀態(tài),因此系統(tǒng)能夠?qū)崟r(shí)地從錯(cuò)誤中恢復(fù)過來。
研究人員將在本周于澳大利亞布里斯班舉行的機(jī)器人與自動(dòng)化國(guó)際會(huì)議(ICRA)上發(fā)表他們的研究論文和工作。
該團(tuán)隊(duì)表示,他們將繼續(xù)探索使用合成訓(xùn)練數(shù)據(jù)進(jìn)行機(jī)器人操縱,以將他們的方法擴(kuò)展到其他場(chǎng)景。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28579瀏覽量
207802 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5063瀏覽量
103436 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121362
原文標(biāo)題:一看就會(huì)!英偉達(dá)新研究教機(jī)器人僅通過觀察人類行為完成任務(wù)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論