編者按:Gibson是一個(gè)基于現(xiàn)實(shí)世界的虛擬環(huán)境,以支持感知學(xué)習(xí),與游戲或人工環(huán)境不同。Gibson能讓算法同時(shí)探索感知和運(yùn)動(dòng)。
Gibson環(huán)境的名稱來源于Ecological Approach to Visual Perception一書的作者James J. Gibson,他曾說過:“我們必須為了移動(dòng)進(jìn)行感知,但同時(shí)也要為了感知而移動(dòng)。”
摘要
為活動(dòng)的智能體創(chuàng)建視覺感知模型并進(jìn)行感覺運(yùn)動(dòng)控制是非常困難的,因?yàn)槟壳暗乃惴ㄝ^慢,無法進(jìn)行高效的實(shí)時(shí)學(xué)習(xí),而機(jī)器人成本較高,也很脆弱。這就催生了“在模擬中學(xué)習(xí)”的方法,隨之而來的問題是,結(jié)果能否轉(zhuǎn)移到現(xiàn)實(shí)世界。在這篇論文中,我們研究了在活動(dòng)的智能體上對(duì)現(xiàn)實(shí)世界進(jìn)行感知,并提出了Gibson虛擬環(huán)境,展示了從中學(xué)到的樣本感知任務(wù)。
詳細(xì)介紹
理想的機(jī)器人智能體需要具備復(fù)合的感知和物理能力,例如可以自動(dòng)檢查建筑物的無人機(jī)、在受災(zāi)區(qū)域迅速定位受害者的機(jī)器人或者可以安全運(yùn)輸包裹的機(jī)器人等等。除了應(yīng)用角度,在視覺感知和物理運(yùn)動(dòng)之間建立密切的聯(lián)系在很多領(lǐng)域都是很流行的:進(jìn)化和計(jì)算機(jī)科學(xué)生物學(xué)家們曾假設(shè),要想在復(fù)雜的行為和智能體種類中結(jié)合感知和運(yùn)動(dòng),就需要一個(gè)關(guān)鍵的角色;神經(jīng)科學(xué)家們認(rèn)為在發(fā)展感知和保持活躍之間需要一個(gè)聯(lián)合的關(guān)系;機(jī)器人專家們也認(rèn)為兩種功能應(yīng)該有類似的關(guān)系。這都需要發(fā)展能夠感知的模型,尤其是具有活動(dòng)的智能體的模型。
通常,我們提到的智能體可以從外界環(huán)境中接收到視覺,也能相應(yīng)地實(shí)現(xiàn)一系列動(dòng)作,可以導(dǎo)致環(huán)境中出現(xiàn)實(shí)質(zhì)性的改變,或者智能體本身做出某些改變。那么應(yīng)該如何、在哪里創(chuàng)建這樣的智能體呢?
首先,關(guān)于如何建造的問題,已經(jīng)有很多相關(guān)研究了,從經(jīng)典的控制問題,到最近的感知運(yùn)動(dòng)控制、強(qiáng)化學(xué)習(xí)、預(yù)測運(yùn)動(dòng)、模仿學(xué)習(xí)等等。這些方法通常假設(shè)給定從環(huán)境中觀察到的物體,之后制定一個(gè)或一系列動(dòng)作來完成任務(wù)。
另一個(gè)關(guān)鍵問題,也就是傳感器得到的觀察從何而來。傳統(tǒng)的計(jì)算機(jī)視覺數(shù)據(jù)集是被動(dòng)而且靜止的,雖然說從現(xiàn)實(shí)中學(xué)習(xí)是可能的,但這并不是理想場景,因?yàn)槠渲械膶W(xué)習(xí)速率必須是實(shí)時(shí)的,如果發(fā)生大規(guī)模并行,則會(huì)增加計(jì)算成本。機(jī)器人又很脆弱,這就導(dǎo)致了“在模擬中學(xué)習(xí)”的大規(guī)模出現(xiàn)。首要問題在于,如何自然地從對(duì)現(xiàn)實(shí)世界的模擬中進(jìn)行泛化,如何保證:
模擬環(huán)境的語義復(fù)雜性精確地反映了現(xiàn)實(shí)世界;
經(jīng)過渲染的視覺觀察和照相機(jī)捕捉到的影響相近(寫實(shí))。
為了解決這一方法,我們提出了Gibson,一種為了訓(xùn)練和測試智能體對(duì)真實(shí)世界理解的虛擬環(huán)境。
Gibson組成
Gibson的主要目標(biāo)是幫助在現(xiàn)實(shí)環(huán)境中訓(xùn)練的模型完成遷移,這一過程分為兩步。首先,在現(xiàn)實(shí)環(huán)境中表現(xiàn)自己的語義復(fù)雜性,并根據(jù)掃描過的真是場景構(gòu)造環(huán)境,而不是根據(jù)人工渲染的環(huán)境創(chuàng)建。之后,嵌入一個(gè)機(jī)制,解決Gibson的渲染和真實(shí)相機(jī)之間的差異。
最后,智能體無法分辨Gibson渲染的成果和相機(jī)拍出的照片,于是二者之間感知上的差異就減少了許多。這是由于使用了基于渲染方法的神經(jīng)網(wǎng)絡(luò)的結(jié)果,使渲染出來的圖片看上去更像真實(shí)照片,同時(shí)另一個(gè)網(wǎng)絡(luò)還能將真實(shí)圖像變得更像渲染出的結(jié)果。兩個(gè)函數(shù)被訓(xùn)練成能產(chǎn)生相同的輸出,所以可以連接兩個(gè)區(qū)域。
Gibson的結(jié)構(gòu)包括一個(gè)基于視覺合成的神經(jīng)網(wǎng)絡(luò),還有一個(gè)物理引擎。視覺合成系統(tǒng)的組成如圖所示:
它由一個(gè)幾何點(diǎn)云渲染器和神經(jīng)網(wǎng)絡(luò)組成,可以修正偽影,填補(bǔ)未被覆蓋的區(qū)域。
3D輸入和幾何渲染有很多不完美的地方,而且用神經(jīng)網(wǎng)絡(luò)得到照片一樣真實(shí)的結(jié)果似乎也不可能。所以這里和真實(shí)照片之間存在著巨大的差異。于是,我們將渲染問題看作是構(gòu)建一個(gè)公共空間,保證真實(shí)圖片和渲染圖片之間是對(duì)應(yīng)的。
實(shí)驗(yàn)結(jié)果
Gibson所用數(shù)據(jù)集來自多種掃描設(shè)備,包括NavVis、Matterport或者DotProduct,涵蓋了多種不同的空間,例如辦公室、車庫、劇院、便利店、健身房、醫(yī)院等等。所有空間都完全用3D重建,并且經(jīng)過了后處理。我們對(duì)Gibson進(jìn)行了基準(zhǔn)測試,與現(xiàn)有的合成數(shù)據(jù)集進(jìn)行了比較,具體參數(shù)如下表:
SSA表示特殊表面區(qū)域,是用來表示模型混亂的尺度。接著,我們對(duì)比了模型對(duì)樣本的渲染效果:
從上到下依次是未經(jīng)神經(jīng)網(wǎng)絡(luò)修正的圖片、經(jīng)過神經(jīng)網(wǎng)絡(luò)修正的圖片、Goggles看到的真實(shí)圖片、目標(biāo)圖片
遷移到真實(shí)環(huán)境
下圖4×4的矩陣表示了從Gibson遷移到真實(shí)場景的評(píng)估分?jǐn)?shù),(a)表示所有訓(xùn)練測試結(jié)合的深度估算錯(cuò)誤;(b)(c)表示MMD和CORAL分布的距離。
任務(wù)解決策略
同時(shí)經(jīng)過訓(xùn)練,模型可以根據(jù)獎(jiǎng)勵(lì)設(shè)計(jì)解決任務(wù)的策略:
路線規(guī)劃及避障
遠(yuǎn)距離導(dǎo)航
結(jié)語
雖然Gibson環(huán)境能讓運(yùn)動(dòng)中的智能體對(duì)現(xiàn)實(shí)世界有良好的感知,但其中仍有一些缺陷。首先,盡管Gibson可以學(xué)習(xí)復(fù)雜的導(dǎo)航和移動(dòng),但是目前它無法做出其他動(dòng)態(tài)動(dòng)作,也不能進(jìn)行操控。這可以通過與合成物體結(jié)合解決。另外,我們并沒有考慮所有的材料特點(diǎn),而且目前也沒有最理想的物理模擬器,這可能會(huì)導(dǎo)致物理之間的差距。最后,我們基本上是在靜態(tài)任務(wù)中進(jìn)行遷移,未來這一模型還是要應(yīng)用在真實(shí)的機(jī)器人上。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28580瀏覽量
207804 -
計(jì)算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1699瀏覽量
46057 -
智能體
+關(guān)注
關(guān)注
1文章
163瀏覽量
10600
原文標(biāo)題:斯坦福提出Gibson環(huán)境,讓智能體感知現(xiàn)實(shí)空間
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論