您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費注冊]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

機(jī)器人進(jìn)行深度學(xué)習(xí)有何作用

大?。?/span>0.6 MB 人氣: 2017-09-29 需要積分:1
DeepMind 和 OpenAI 合作的新研究,讓沒有技術(shù)經(jīng)驗的人類給強(qiáng)化學(xué)習(xí)系統(tǒng)提供反饋,從而避免事先為系統(tǒng)指定目標(biāo)的步驟。在某些情況下,這種方法只需要30分鐘的反饋就足以訓(xùn)練系統(tǒng),包括教會系統(tǒng)一個全新的、復(fù)雜的行為,例如使模擬機(jī)器人做后空翻。
  下載論文:arxiv.org/abs/1706.03741
  我們相信,人工智能將是最重要、最廣泛有益的科學(xué)進(jìn)步之一,人工智能幫助人類應(yīng)對了一些最大的挑戰(zhàn),例如應(yīng)對氣候變化,提供先進(jìn)醫(yī)療,等等。但是,為了讓AI實現(xiàn)它的效用,我們知道技術(shù)必須建立在負(fù)責(zé)任的基礎(chǔ)之上,我們也必須考慮所有潛在的挑戰(zhàn)和風(fēng)險。
  這就是為什么 DeepMind 作為共同創(chuàng)立者發(fā)起了一些機(jī)構(gòu),例如AI聯(lián)盟(Partnership on AI),旨在惠及人類和社會;以及為什么我們擁有一個致力于AI安全(AI Safety)的團(tuán)隊。這一領(lǐng)域的研究需要開放、協(xié)作,以確保盡可能廣泛地采取最佳的實踐,這也是我們?yōu)槭裁磁cOpenAI合作開展AI安全技術(shù)研究的原因。
  這個領(lǐng)域的一個核心問題是:我們?nèi)绾卧试S人類去告訴系統(tǒng)我們希望它做什么,以及更重要的是,我們不希望它做什么。隨著我們利用機(jī)器學(xué)習(xí)處理的問題越來越復(fù)雜,以及這些技術(shù)在現(xiàn)實世界中得到應(yīng)用,這個問題變得越來越重要。
  DeepMind 和 OpenAI 合作的第一個結(jié)果證明了一種解決這個問題的方法:讓沒有技術(shù)經(jīng)驗的人類來教給強(qiáng)化學(xué)習(xí)(RL)系統(tǒng)一個復(fù)雜目標(biāo)。強(qiáng)化學(xué)習(xí)是通過反復(fù)的試驗和試錯學(xué)習(xí)的系統(tǒng)。這就消除了讓人類事先為算法指定一個目標(biāo)的需要。這是一個重要的步驟,因為假如目標(biāo)就算只出了一點點差錯也可能導(dǎo)致不良、甚至危險的行為。在某些情況下,只需要30分鐘的來自非專家的反饋就足以訓(xùn)練我們的系統(tǒng),包括教會系統(tǒng)一個全新的、復(fù)雜的行為,例如使模擬機(jī)器人做后空翻。
  
  大約用了900條來自人類的反饋來教這個算法做后空翻
  我們在新論文《利用人類偏好的深度強(qiáng)化學(xué)習(xí)》(Deep Reinforcement Learning from Human Preferences)描述了這個系統(tǒng),它與經(jīng)典的RL系統(tǒng)不同,經(jīng)典的RL系統(tǒng)使用被作為“激勵預(yù)測器”(reward predictor)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練智能體,而不是在智能體探索環(huán)境時收集的激勵。
  
  在這里下載論文:arxiv.org/pdf/1706.03741.pdf
  它包括3個并行運行的進(jìn)程:
  一個強(qiáng)化學(xué)習(xí)智能體探索它所處的環(huán)境(例如在Atari游戲中)并進(jìn)行交互;
  定期地,該智能體所做行為的1~2秒的兩個剪輯片段被發(fā)送給人類控制員,人類控制員需要在二者中選擇一個最能實現(xiàn)預(yù)期目標(biāo)的行為;
  人類的選擇被用于訓(xùn)練激勵預(yù)測器,該預(yù)測器反過來又用于訓(xùn)練智能體。隨著時間的推移,智能體學(xué)習(xí)最大限度地提高從預(yù)測器得到的獎勵,并根據(jù)人類的偏好改進(jìn)自己的行為。
  
  系統(tǒng)將學(xué)習(xí)目標(biāo)與學(xué)習(xí)行為分開來實現(xiàn)
  這種迭代學(xué)習(xí)的方法意味著人類可以發(fā)現(xiàn)和糾正智能體的任何不想要的行為,這是所有安全系統(tǒng)的關(guān)鍵部分。這樣的設(shè)計也不會給人類控制員帶來沉重的工作負(fù)擔(dān),他們只需要檢查智能體的大約0.1%的行為,就能令其做他們希望的行為。但是,這仍然意味著要檢查幾百上千個剪輯片段,假如應(yīng)用到現(xiàn)實世界的問題上,這個工作量是需要減少的。
  
  人類控制員必須在兩個剪輯片段之間選一個。在這個例子中,對于Atari游戲Qbert而言,右邊的剪輯看起來是更好的行為(得分更高)
  在Atari的Enduro游戲,要駕駛一輛汽車并超其他車,這很難通過傳統(tǒng)的RL網(wǎng)絡(luò)的試驗和試錯方法學(xué)習(xí),加入人類反饋的方法最終使我們的系統(tǒng)實現(xiàn)了超過人類的結(jié)果。在其他游戲和模擬機(jī)器人的任務(wù)中,我們的方法與標(biāo)準(zhǔn)的RL設(shè)置表現(xiàn)相當(dāng),但在Qbert和Breakout等幾個游戲中,我們的方法根本不工作。
  但是,這樣一個系統(tǒng)的最終目標(biāo)是即使智能體不在環(huán)境中的情況下,也能允許人類來為智能體指定一個目標(biāo)。為了測試,我們教智能體各種各樣的新行為,例如令它進(jìn)行后空翻,單腿走路或在Enduro游戲中學(xué)習(xí)與另一輛車并排行駛,而不是為了得分去超車。
  
  Enduro的正常目標(biāo)是盡可能多地超車。但是在我們的系統(tǒng)中,我們可以訓(xùn)練智能體實現(xiàn)不同的目標(biāo),比如與其他車輛并行
  雖然這些測試得到了一些積極的結(jié)果,但其他測試顯示出其局限性。尤其是,如果在訓(xùn)練初期停止人類的反饋,我們的設(shè)置很容易被獎勵黑掉。在這種情況下,智能體繼續(xù)探索所處環(huán)境,這意味著激勵預(yù)測器被迫在沒有反饋的情況繼續(xù)預(yù)測獎勵。 這可能會導(dǎo)致過高的獎勵,從而令智能體學(xué)習(xí)了錯誤的行為——往往是奇怪的行為。下面的視頻是一個例子,智能體發(fā)現(xiàn),來回?fù)羟蚴窍啾葢?yīng)分或失分更好的策略。
  
  智能體的獎勵功能黑了,它決定來回?fù)羟騼?yōu)于贏分或失分
  了解這些缺陷對于確保我們避免故障,并構(gòu)建按照預(yù)期行為的AI系統(tǒng)至關(guān)重要。
  為了測試和增強(qiáng)這個系統(tǒng),我們還有更多的工作要做。但是這個系統(tǒng)已經(jīng)顯示了在創(chuàng)建可以由非專家用戶使用的系統(tǒng)的許多關(guān)鍵的第一步,它們所需的反饋量十分少,而且可以擴(kuò)展到各種各樣的問題。
  其他的探索領(lǐng)域可以是減少所需人類反饋的量,或使人類能夠通過自然語言界面提供反饋。這將標(biāo)志著創(chuàng)建一個可以輕松學(xué)習(xí)人類行為復(fù)雜性的系統(tǒng)的顯著進(jìn)步,也是創(chuàng)造與人類全面合作的AI的關(guān)鍵一步。
  這項研究是 DeepMind 的 Jan Leike,Miljan Martic,Shane Legg 和 OpenAI 的 Paul Christiano,Dario Amodei 以及 Tom Brown 持續(xù)合作的一部分。
  在 OpenAI 的 gym 復(fù)制后空翻實驗,使用如下獎勵函數(shù):
  
?

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關(guān)規(guī)定!

      ?