人們非常擅長操作物體,而無需將視角調(diào)整到某一固定或特定位置。這種能力(稱為視覺動作整合)在孩童時期通過在各種情境中操作物體而習(xí)得,并由一種利用豐富的感官信號和視覺作為反饋的自適應(yīng)糾錯機(jī)制控制。不過,對于機(jī)器人技術(shù)中基于視覺的控制器而言,想要具備這種能力卻十分困難。
直到現(xiàn)在,這種控制器都基于一種用于從固定安裝式攝像頭讀取視覺輸入數(shù)據(jù)的固定裝置,訓(xùn)練和測試過程中不能移動或重新調(diào)整攝像頭的位置。在視角大幅變化的情況下快速獲取視覺運動控制技能的能力將對自主機(jī)器人系統(tǒng)產(chǎn)生重大影響。例如,這種能力對于參與緊急情況或災(zāi)區(qū)救援工作的機(jī)器人來說尤其必要。
在本周的 CVPR 2018 大會上,我們提交了名為“Sim2Real Viewpoint Invariant Visual Servoing by Recurrent Control”的論文。在這篇論文中,我們研究了一種新型深度網(wǎng)絡(luò)架構(gòu)(由兩個完全卷積網(wǎng)絡(luò)和一個長短期記憶單元組成),該架構(gòu)可以從過去的動作和觀察結(jié)果學(xué)習(xí)以進(jìn)行自校準(zhǔn)。我們的視覺適應(yīng)網(wǎng)絡(luò)利用由演示軌跡和強(qiáng)化學(xué)習(xí)目標(biāo)組成的各種模擬數(shù)據(jù),能夠從各種視角控制機(jī)械臂到達(dá)各種視覺指示目標(biāo),并且不依賴于攝像頭校準(zhǔn)。
用物理機(jī)械臂到達(dá)視覺指示目標(biāo)的視角不變操作
我們學(xué)習(xí)了一種策略,可以通過從截然不同的攝像頭視角捕獲的感官輸入到達(dá)不同的目標(biāo)
第一行所示為視覺指示目標(biāo)
挑戰(zhàn)
通過從未知視角捕獲的單一圖像分析可控自由程度(DoF) 對視覺運動的影響可能不夠明確和具體。確定動作對圖像-空間運動的影響并成功執(zhí)行所需的任務(wù)需要一個具備對過去動作的記憶能力的強(qiáng)大感知系統(tǒng)。要解決這一具有挑戰(zhàn)性的問題,我們必須解決以下基本問題:
? 如何提供適當(dāng)?shù)慕?jīng)驗,讓機(jī)器人在模擬終身學(xué)習(xí)范式的純視覺觀察的基礎(chǔ)上學(xué)習(xí)自適應(yīng)行為?
? 如何設(shè)計一個集強(qiáng)大感知和自適應(yīng)控制于一體并能夠快速轉(zhuǎn)移到未知環(huán)境的模型?
為此,我們設(shè)計了一個新的操作任務(wù),為一個七自由度機(jī)械臂提供一種物體的圖像,并指示它在一系列干擾物中拿到特定的目標(biāo)物體,同時每一次試驗的視角會發(fā)生巨大變化。通過這種方式,我們能夠模擬復(fù)雜行為的學(xué)習(xí)以及向未知環(huán)境的轉(zhuǎn)移。
用物理機(jī)械臂和各種攝像頭視角完成到達(dá)視覺指示目標(biāo)的任務(wù)
利用模擬學(xué)習(xí)復(fù)雜行為
收集機(jī)器人經(jīng)驗數(shù)據(jù)費時費力。在之前的博文中,我們展示了如何通過將數(shù)據(jù)收集和試驗分配給多個機(jī)器人來擴(kuò)展學(xué)習(xí)技能。盡管這種方法加快了學(xué)習(xí)速度,但學(xué)習(xí)視覺自校準(zhǔn)等復(fù)雜行為仍然不可行,學(xué)習(xí)復(fù)雜行為時需要我們將機(jī)器人置于包含各種視角的大型空間中。
因此,我們選擇在模擬中學(xué)習(xí)此類復(fù)雜行為,我們可以收集無限的機(jī)器人試驗數(shù)據(jù),并輕松將攝像頭移到各個隨機(jī)視角。除了在模擬中快速收集數(shù)據(jù)外,我們還可以擺脫在機(jī)器人周圍安裝多個攝像頭的硬件限制。
我們在模擬中使用域隨機(jī)化技術(shù)來學(xué)習(xí)可泛化的策略。
為了學(xué)習(xí)要向未知環(huán)境轉(zhuǎn)移的強(qiáng)大視覺特征,我們使用了Sadeghi & Levine在 2017 年提出的一項稱為“域隨機(jī)化”(又名“模擬隨機(jī)化”)的技術(shù),使機(jī)器人能夠完全在模擬中學(xué)習(xí)基于視覺的策略,從而可以泛化到現(xiàn)實世界。這項技術(shù)已被證明適用于各種機(jī)器人任務(wù),例如室內(nèi)導(dǎo)航、物體定位以及挑選和放置等。此外,為了學(xué)習(xí)自校準(zhǔn)等復(fù)雜行為,我們利用模擬功能來生成合成演示并結(jié)合強(qiáng)化學(xué)習(xí)目標(biāo)來學(xué)習(xí)強(qiáng)大的機(jī)械臂控制器。
用模擬的七自由度機(jī)械臂到達(dá)視覺指示目標(biāo)的視角不變操作
我們學(xué)習(xí)了一種策略,可以通過從截然不同的攝像頭視角捕獲的感官輸入到達(dá)不同的目標(biāo)
將感知與控制分離
為了能夠快速轉(zhuǎn)移到未知環(huán)境中,我們設(shè)計了一個深度神經(jīng)網(wǎng)絡(luò),將感知和控制相結(jié)合,并同時進(jìn)行端到端訓(xùn)練,且在必要情況下允許二者分別進(jìn)行學(xué)習(xí)。將感知與控制分離讓轉(zhuǎn)移到未知環(huán)境變得容易,并且使得模型既靈活又高效,因為它的每個部分(即“感知”或“控制”)可以使用少量數(shù)據(jù)單獨適應(yīng)新環(huán)境。
另外,雖然網(wǎng)絡(luò)的控制部分完全使用模擬數(shù)據(jù)訓(xùn)練,但網(wǎng)絡(luò)的感知部分通過用物體邊界框收集少量靜態(tài)圖像來補(bǔ)充,而不需要用物理機(jī)器人收集整個動作序列軌跡。在實踐中,我們只用了來自 22 個圖像的 76 個物體邊界框來微調(diào)網(wǎng)絡(luò)的感知部分。
現(xiàn)實世界的機(jī)器人和移動攝像頭設(shè)置第一行所示為場景布置,第二行為機(jī)器人的視覺感官輸入
早期結(jié)果
我們在物理機(jī)器人和真實物體上測試了視覺適應(yīng)版本的網(wǎng)絡(luò),這些物體的外觀與模擬中使用的完全不同。在實驗中,桌子上會出現(xiàn)一個或兩個物體 -“見過的物體”(如下圖所示)用于視覺適應(yīng),實驗中使用的是小型靜態(tài)真實圖像集。在視覺適應(yīng)期間沒有看到“未見過的物體”。在測試過程中,指示機(jī)械臂從各個視角到達(dá)視覺指示物體。對于雙物體實驗,第二個物體用于“迷惑”機(jī)械臂。由于純模擬網(wǎng)絡(luò)具有良好的泛化能力(因為它是使用域隨機(jī)化技術(shù)進(jìn)行訓(xùn)練的),加上我們的網(wǎng)絡(luò)架構(gòu)非常靈活,因此,雖然實驗中僅收集了非常少量的靜態(tài)視覺數(shù)據(jù)用于視覺適應(yīng),控制器的表現(xiàn)仍然有了很大提升。
在使用少量真實圖像進(jìn)行視覺特征適應(yīng)后,性能提高了10% 以上。使用的所有真實物體都與模擬中看到的物體截然不同。
我們認(rèn)為,學(xué)習(xí)在線視覺自適應(yīng)是一個重要而又具有挑戰(zhàn)性的課題,其目標(biāo)是學(xué)習(xí)可泛化策略,讓機(jī)器人能夠在多樣化、非結(jié)構(gòu)型現(xiàn)實世界中運行。我們的方法可以延伸到任何類型的自動自校準(zhǔn)。
-
控制器
+關(guān)注
關(guān)注
112文章
16376瀏覽量
178235 -
機(jī)器人
+關(guān)注
關(guān)注
211文章
28445瀏覽量
207231
原文標(biāo)題:教未校準(zhǔn)的機(jī)器人實現(xiàn)視覺自適應(yīng)
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論