在蒙特祖瑪?shù)膹统穑∕ontezuma's Revenge)和瑪雅人的冒險(Pitfall!)這兩款游戲里,如果有一個算法能記住游戲里的探索過程,那么這個算法就能幫助計算機和機器人更好地學習和適應真實世界。
由懷俄明大學的副教授 Jeff Clune 領導,來自優(yōu)步在舊金山的人工智能研究團隊,提供了一種新型的機器學習算法剛剛攻克了一些對人工智能來說非常困難的電子游戲。
(圖片來源:麻省理工科技評論)
熟悉的人知道,人工智能算法已經在古老、優(yōu)雅的策略游戲——圍棋中擊敗了世界上最優(yōu)秀的人類選手,圍棋已經是是可以想象到的最困難的游戲之一。但是,來自上個世紀的 8 位計算機游戲時代的兩個經典像素游戲——蒙特祖瑪?shù)膹统鸷同斞湃说拿半U,一直困擾著人工智能研究人員。
這看似矛盾的背后其實是有原因的。蒙特祖瑪?shù)膹统鸷同斞湃说拿半U雖然看似簡單,但對本來就擅長征服電子游戲的強化學習來說仍是一大挑戰(zhàn)。DeepMind 是谷歌母公司 Alphabet 的子公司,專注于人工智能領域,以其算法能夠以專業(yè)玩家的水準來學習幾個經典的電子游戲的而著名。強化學習算法在大多數(shù)游戲里效果都不錯,因為它們可以根據(jù)正反饋(得分升高)調整他們的行為。強化學習的成功使人們產生了希望,認為人工智能算法可以自己教會自己做各種有用的事情,而這目前對機器來說是不可能做到的。
蒙特祖瑪?shù)膹统鸷同斞湃说拿半U的問題是所需要的獎勵(rewards)信號很少。兩個游戲都涉及典型場景:主角要探索充滿致命生物和陷阱的方塊世界,在游戲中許多所必需的行為都無助于提高分數(shù),只在長時間完成特定的一系列動作之后才會收到獎勵信號。普通的強化學習算法甚至過不去蒙特祖瑪?shù)膹统鸷同斞湃说拿半U的第一關,他們得分完全為零。
但是來自優(yōu)步在舊金山的人工智能研究團隊的算法,在一個給算法提供線索很少的環(huán)境中展示了一種完全不同的機器學習方法。這種方法引出了一些有趣的實際應用,Clune 和他的團隊在 11 月 26 日發(fā)布的博客文章中寫道,這可能可以應用在機器人學習中。這是因為未來的機器人需要弄清楚在一個只提供較少的獎勵的復雜的環(huán)境中應該做些什么。
Uber 于 2016 年 12 月建立人工智能實驗室,其目標是實現(xiàn)可能對其業(yè)務有用的基礎性突破。更好的強化學習算法最終可用于自動駕駛和優(yōu)化車輛路線等項目上。
很多人工智能研究人員經常通過指導強化學習算法不定時隨機探索、同時為探索過程增加獎勵——也就是所謂的”內在動機”(intrinsic motivation), 來試圖解決蒙特祖瑪?shù)膹统鹋c瑪雅人的冒險遇到的問題。
但 Uber 的研究人員認為,這種方法忽略了人類探索好奇心的一個重要角度?!拔覀冋J為目前的”內在動機”算法的一個主要弱點是 detachment,”他們寫道,“算法忘記了他們訪問過的有價值的區(qū)域,他們不會回到那些區(qū)域,看看是否會產生新的狀態(tài)?!?/p>
該團隊設計了新的強化學習算法,稱為 Go-Explore,這種算法可以記住之前的狀態(tài),并會在隨后返回特定區(qū)域或重復特定任務,看看這樣做是否會使效果變好。研究人員還發(fā)現(xiàn),通過讓人類玩家突出有趣或重要的區(qū)域來增加一些領域信息時,可以大大加快算法的學習過程。這一過程非常重要,因為在真實環(huán)境中,有很多情況是需要算法和人一起工作來解決一項艱巨的任務的。
他們的算法在蒙特祖瑪?shù)膹统鹬衅骄梅譃?400,000 分——比人類玩家的平均值高出一個數(shù)量級。在瑪雅人的冒險游戲中,平均得分為 21,000,同樣遠遠超過大多數(shù)人類玩家。
“這些結果令人印象深刻,”研究強化學習的斯坦福大學助理教授 Emma Brunskill 說,“令人驚訝和興奮的是,這些算法產生了如此巨大的優(yōu)勢?!?/p>
其他人工智能研究人員也一直在努力攻克這些電子游戲。10 月,舊金山的非營利組織——OpenAI 的一個團隊,展示了一種能夠在蒙特祖瑪?shù)膹统鹩螒蛑腥〉弥卮筮M展的算法。
就在最近,斯坦福大學的 Brunskill 小組在瑪雅人的冒險游戲方面也取得了一些的進展,他們使用的方法與 Uber 團隊類似。
現(xiàn)在人工智能算法可以解決這些視頻游戲,真正的挑戰(zhàn)是從街機游戲中脫離出來,解決現(xiàn)實問題。
Brunskill 同意這種算法可能對機器人技術產生重大影響。但是她表示,在其他現(xiàn)實世界的情況中,特別是那些涉及人類行為建模的情況,要遠遠困難得多?!跋肟纯催@種方法對于更復雜的環(huán)境表現(xiàn)的如何,這將非常有趣,”她說。
-
機器人
+關注
關注
211文章
28560瀏覽量
207697 -
算法
+關注
關注
23文章
4624瀏覽量
93110 -
機器學習
+關注
關注
66文章
8428瀏覽量
132839
原文標題:Uber公司設計新型AI算法,有望對機器人工作產生巨大影響
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論