近日,美國(guó)西雅圖的NVIDIA機(jī)器人研究實(shí)驗(yàn)室推出一種將虛擬引入現(xiàn)實(shí)的強(qiáng)化學(xué)習(xí)方法,即將機(jī)器人的實(shí)際表現(xiàn)與虛擬環(huán)境的參數(shù)調(diào)整相結(jié)合,從而獲得更為真實(shí)的虛擬環(huán)境,為實(shí)際機(jī)器人的深度學(xué)習(xí)帶來(lái)新的視角。
眾所周知,擴(kuò)大機(jī)器人學(xué)習(xí)的方法就是通過(guò)盡可能多的在虛擬環(huán)境中對(duì)虛擬機(jī)器人進(jìn)行場(chǎng)景訓(xùn)練。因?yàn)樵谔摂M環(huán)境中只要擁有足夠的計(jì)算能力,研究人員就可以運(yùn)行大量的虛擬機(jī)器人,測(cè)試各種虛擬的環(huán)境,調(diào)整模擬的速度,從而讓機(jī)器人學(xué)習(xí)得更快。
但是模擬并不是完美的,當(dāng)研究人員將模擬的參數(shù)應(yīng)用到實(shí)際環(huán)境中時(shí),總是需要進(jìn)行復(fù)雜而又繁瑣的參數(shù)調(diào)整。在模擬實(shí)驗(yàn)中,NVIDIA的研究人員雖然沒(méi)有消滅模擬環(huán)境與現(xiàn)實(shí)環(huán)境的參數(shù)差別,但是他們使得機(jī)器人可以自主調(diào)整參數(shù),這意味著模擬和現(xiàn)實(shí)之間的差距可以在沒(méi)有人為參與的情況下消失。
具體地,在實(shí)驗(yàn)中,NVIDIA研究人員使用64個(gè)NVIDIATesla V100 GPU集群,同時(shí)使用cuDNN加速的TensorFlow深度學(xué)習(xí)框架,訓(xùn)練機(jī)器人完成兩項(xiàng)任務(wù):將一個(gè)掛鉤放進(jìn)一個(gè)洞和打開(kāi)一個(gè)抽屜。對(duì)于場(chǎng)景的模擬,該團(tuán)隊(duì)使用了NVIDIA FleX物理引擎。
機(jī)器人的整個(gè)學(xué)習(xí)過(guò)程是:機(jī)器人首先在模擬環(huán)境中進(jìn)行建模仿真,并且在虛擬環(huán)境中進(jìn)行不斷地訓(xùn)練,將測(cè)試得到的數(shù)據(jù)下載到機(jī)器人上,當(dāng)在真實(shí)機(jī)器人上嘗試學(xué)習(xí)任務(wù)時(shí),系統(tǒng)準(zhǔn)確觀察它是如何失敗的,并將失敗的數(shù)據(jù)與模擬數(shù)據(jù)進(jìn)行對(duì)比,將結(jié)果返回到學(xué)習(xí)框架進(jìn)行優(yōu)化模擬以獲得更接近真實(shí)的模擬參數(shù)。為了確定模擬環(huán)境中的參數(shù)對(duì)實(shí)際機(jī)器人的影響,NVIDIA可以在沒(méi)有人參與的情況下將這個(gè)誤差反饋到模擬環(huán)境中以改進(jìn)模擬的參數(shù),使其更接近觀察到的現(xiàn)實(shí)情況。
得益于深度學(xué)習(xí)框架的黑盒形態(tài),虛擬環(huán)境的構(gòu)建者可以擺脫復(fù)雜的物理定律、具體的數(shù)學(xué)模型構(gòu)建,并將這些虛擬環(huán)境的參數(shù)調(diào)整納入到深度學(xué)習(xí)框架,經(jīng)過(guò)不斷迭代,系統(tǒng)能夠識(shí)別出與現(xiàn)實(shí)世界中觀察到的更接近的模擬參數(shù),從而取得成功,進(jìn)一步打通虛擬與現(xiàn)實(shí)之間的隔閡,這為構(gòu)建更為真實(shí)的虛擬環(huán)境和更具效率的機(jī)器人學(xué)習(xí)提供了另一種手段。
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28445瀏覽量
207230 -
NVIDIA
+關(guān)注
關(guān)注
14文章
4990瀏覽量
103120
原文標(biāo)題:NVIDIA推出一款可模擬虛擬與現(xiàn)實(shí)世界的機(jī)器人
文章出處:【微信號(hào):robotmagazine,微信公眾號(hào):機(jī)器人技術(shù)與應(yīng)用】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論