讓兒童(和成年人)整理東西已經(jīng)是件難事了,但是想讓AI像人一樣整理東西是個(gè)不小的挑戰(zhàn)。一些視覺運(yùn)動(dòng)的核心技能是取得成功的關(guān)鍵:接近一個(gè)物體,抓住并且提起它,然后打開一個(gè)盒子,將其放入盒中。要完成更復(fù)雜的動(dòng)作,必須按照正確順序應(yīng)用這些技能。
控制任務(wù),比如整理桌子或堆疊物體,都需要智能體決定如何、何時(shí)并且在哪里協(xié)調(diào)機(jī)械臂和手指的六個(gè)關(guān)節(jié)以移動(dòng)并實(shí)現(xiàn)目標(biāo)。在某一特定時(shí)刻,可能的動(dòng)作會(huì)有多種組合,并且要想把它們按順序組合好,就產(chǎn)生了嚴(yán)重的問題——這也使得強(qiáng)化學(xué)習(xí)成為一個(gè)有趣的領(lǐng)域。
類似獎(jiǎng)勵(lì)塑造(reward shaping)、學(xué)徒式學(xué)習(xí)(apprenticeship learning)或從展示中學(xué)習(xí)有助于解決上述問題。但是,這些方法需要對(duì)任務(wù)有足夠的了解——利用很少的先驗(yàn)知識(shí)學(xué)習(xí)復(fù)雜的控制任務(wù)仍然是未解決的挑戰(zhàn)。
昨天,DeepMind提出了一種新的學(xué)習(xí)模式,名為“計(jì)劃輔助控制(SAC-X)”以解決上述問題。SAC-X的工作原理是,為了從零開始掌握復(fù)雜任務(wù),智能體必須先學(xué)習(xí)探索一系列基礎(chǔ)技能,并掌握他們。正如嬰兒在學(xué)會(huì)爬行和走路前必須學(xué)會(huì)保持平衡一樣,讓智能體學(xué)習(xí)簡單技能以增強(qiáng)內(nèi)部協(xié)調(diào)性,有助于它們理解并執(zhí)行復(fù)雜任務(wù)。
研究人員在一些模擬環(huán)境和真實(shí)機(jī)器人上試驗(yàn)了SAC-X方法,其中包括堆疊不同目標(biāo)物體和整理桌子(其中需要移動(dòng)對(duì)象)。他們所指的輔助任務(wù)的通用原則是:鼓勵(lì)智能體探索它的感應(yīng)空間。例如,激活手指的觸覺感應(yīng)器、在腕部的感應(yīng)器感受力度的大小、將本體感應(yīng)器的關(guān)節(jié)角度最大化或強(qiáng)制物體在其視覺相機(jī)傳感器中移動(dòng)。如果達(dá)到目標(biāo),每個(gè)任務(wù)都會(huì)得到一個(gè)簡單的獎(jiǎng)勵(lì),否則沒有獎(jiǎng)勵(lì)。
模擬智能體最終掌握了“堆疊”這一復(fù)雜任務(wù)
智能體最后能自己決定它現(xiàn)在的“目的”,即下一步要完成什么目標(biāo),這有可能是一項(xiàng)輔助任務(wù),或是外部決定的目標(biāo)任務(wù)。重要的是,通過廣泛使用off-policy學(xué)習(xí),智能體可以檢測到獎(jiǎng)勵(lì)信號(hào)并從中學(xué)習(xí)。比如,在撿起或移動(dòng)目標(biāo)物體時(shí),智能體可能會(huì)不經(jīng)意間完成堆疊動(dòng)作,這樣會(huì)使獎(jiǎng)勵(lì)觀察到這一動(dòng)作。由于一系列簡單任務(wù)能導(dǎo)致稀有的外部獎(jiǎng)勵(lì),所以對(duì)目標(biāo)進(jìn)行規(guī)劃是十分重要的。它可以根據(jù)收集的相關(guān)知識(shí)創(chuàng)建個(gè)性化的學(xué)習(xí)課程。事實(shí)證明這是在如此寬廣的領(lǐng)域開發(fā)知識(shí)的有效方式,并且當(dāng)只有少量外部獎(jiǎng)勵(lì)信號(hào)可用時(shí),這種方法更加有用。我們的智能體通過調(diào)度模塊決定下一個(gè)目標(biāo)。調(diào)度器在訓(xùn)練過程中通過元學(xué)習(xí)算法得到改進(jìn),該算法試圖讓主任務(wù)的進(jìn)度實(shí)現(xiàn)最大化,顯著提高數(shù)據(jù)效率。
探索了一些內(nèi)部輔助任務(wù)后,智能體學(xué)會(huì)了如何堆疊及清理物品
對(duì)SAC-X的評(píng)估表示,使用相同的底層輔助任務(wù),SAC-X能從零開始解決問題。令人興奮的是,在實(shí)驗(yàn)室里,SAC-X能在真實(shí)的機(jī)械臂上從零學(xué)習(xí)拾取和放置任務(wù)。這在過去是很有難度的,因?yàn)樵谡鎸?shí)的機(jī)械臂上學(xué)習(xí)需要數(shù)據(jù)效率。所以人們通常會(huì)訓(xùn)練一個(gè)模擬智能體,然后再轉(zhuǎn)移到真正的機(jī)械臂上。
DeepMind的研究人員認(rèn)為SAC-X的誕生是從零學(xué)習(xí)控制任務(wù)的重要一步(只需要確定任務(wù)的最終目標(biāo))。SAC-X允許你設(shè)定任意的輔助任務(wù):它可以是一般的任務(wù)(如激活傳感器),也可以是研究人員需要的任何任務(wù)。也就是說在這方面,SAC-X是一種通用的強(qiáng)化學(xué)習(xí)方法,除了用于控制任務(wù)和機(jī)器人任務(wù)之外,能廣泛適用于一般的稀疏強(qiáng)化學(xué)習(xí)環(huán)境。
-
DeepMind
+關(guān)注
關(guān)注
0文章
131瀏覽量
10901
原文標(biāo)題:DeepMind提出SAC-X學(xué)習(xí)范式,無需先驗(yàn)知識(shí)就能解決稀疏獎(jiǎng)勵(lì)任務(wù)
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論