據(jù)《大西洋月刊》報道,直到最近,那些能在各類游戲中擊敗人類冠軍的機器,解決現(xiàn)實問題太難了。
1997年,為了在國際象棋中擊敗象棋大師加里·卡斯帕羅夫(Garry Kasparov),IBM的工程師們在他們的“深藍”(Deep Blue)電腦中使用了幾個世紀的國際象棋智慧。2016年,通過研究成千上萬的人類對戰(zhàn)經(jīng)驗,谷歌旗下人工智能(AI)子公司DeepMind的AlphaGo擊敗了韓國圍棋冠軍李世石(Lee Sedol)。
圖:在波多黎各圣洛倫佐(San Lorenzo)的一家養(yǎng)老院走廊里,一名看護人員正用筆記本電腦來監(jiān)控機器人護理人員,后者正為20位老年人提供服務
但是現(xiàn)在,AI研究人員正在重新思考機器人融合人類知識的方式。當前的趨勢是:不需要那么麻煩。
2017年10月份,DeepMind團隊公布了新的圍棋系統(tǒng)——AlphaGo Zero的細節(jié),該系統(tǒng)根本沒有研究人類的下棋經(jīng)驗。相反,它直接從研究游戲規(guī)則開始,并與自己對抗。它的第一個動作完全是隨機的,而在每場比賽之后,它都對幫助其取勝或?qū)е缕涫〉男轮R進行了總結(jié)。
在這些混戰(zhàn)結(jié)束后,AlphaGo Zero與曾經(jīng)擊敗李世石的AlphaGo超人版本進行了正面交鋒,并以100:0的戰(zhàn)績完敗對手。
這個團隊繼續(xù)開發(fā)了AlphaGo家族的另一個游戲大師,并為其取名AlphaZero。去年12月份,DeepMind的研究人員在科學網(wǎng)站ArXiv.org上發(fā)表論文指出,經(jīng)過從頭開始的重新設(shè)計,AlphaZero的表現(xiàn)優(yōu)于AlphaGo Zero。換句話說,它擊敗了曾擊敗過世界上最好圍棋棋手的機器人。
當它獲得國際象棋規(guī)則或日本將棋的規(guī)則時,AlphaZero也很快學會了擊敗這些游戲頂級算法的方式。專家們對該項目咄咄逼人、令人感到陌生的風格感到驚嘆。丹麥大師彼得·海恩·尼爾森(Peter Heine Nielsen)在接受BBC采訪時表示:“我一直在想,如果有更高級的物種降落在地球上,他們是如何下國際象棋的?,F(xiàn)在我知道了?!?/p>
在過去的一年里,在各種各樣的場景中出現(xiàn)了超凡脫世的自學機器人,如無極限撲克和《Dota 2》。
當然,投資于這些和類似系統(tǒng)的公司比僅僅控制視頻游戲比賽更有野心。像DeepMind這樣的研究團隊希望將類似的方法應用到現(xiàn)實世界中幫助解決實際問題,比如建造室溫超導體,或者理解將蛋白質(zhì)折疊成有效藥物分子的方式。
當然,許多實踐者希望最終建立起通用人工智能,這是個定義尚不清楚但卻令人著迷的目標:機器可以像人類那樣思考,并可以幫助解決許多不同類型的問題。
然而,盡管在這些系統(tǒng)中進行了大量投資,但目前的技術(shù)能走多遠還不清楚。華盛頓大學計算機科學家佩德羅·多明戈斯(Pedro Domingos)說:“我不確定AlphaZero的想法是否能輕易地推廣開來,畢竟游戲是極為特殊的東西。”
許多游戲、國際象棋和圍棋都有一個特點,就是玩家可以隨時看到兩邊的棋子。每個玩家都有關(guān)于游戲狀態(tài)的“完美信息”。無論游戲有多么復雜,你所需要做的就是從當前的情況出發(fā)去思考。然而,很多真實情況并非如此。
想象一下,讓電腦診斷疾病或進行商務談判??▋?nèi)基梅隆大學計算機科學專業(yè)博士生諾姆·布朗(Noam Brown)表示:“大多數(shù)現(xiàn)實世界的戰(zhàn)略互動都涉及隱性信息,我覺得這被大多數(shù)AI社區(qū)忽視了?!?/p>
布朗擅長的撲克為AI提供了不同的挑戰(zhàn),因為你看不到對手的牌。但在這個領(lǐng)域,通過與自己競爭來學習的機器現(xiàn)在也達到了超人的水平。2017年1月份,布朗及其導師托馬斯·桑德霍爾姆(Tuomas Sandholm)創(chuàng)建了名為“Libratus”的項目,在20天的比賽結(jié)束后,他們在競爭對手的領(lǐng)先優(yōu)勢下,以超過170萬美元的優(yōu)勢擊敗了4名職業(yè)撲克選手。
另一款更讓人望而生畏的游戲是《星際爭霸2》(StarCraft II),這是一款擁有大量粉絲的多人在線視頻游戲。玩家選擇一個團隊組建軍隊,并在科幻場景中發(fā)動戰(zhàn)爭。但戰(zhàn)爭場景籠罩在迷霧中,只有玩家才能看到他們有士兵或建筑的地方。即使是對你的對手進行偵察,這個過程也充滿了不確定性。
這是一款AI仍然不能徹底掌控的游戲。影響其成功的障礙包括在一場游戲中動作的絕對數(shù)量,通常可能會達到成千上萬個。每個玩家(無論人類還是機器)都需要擔心每次點擊可能帶來的無數(shù)后果。就目前而言,AI還無法在這一領(lǐng)域與頂級人類玩家進行針鋒相對的抗衡,但這是一個目標。在2017年8月份,DeepMind與開發(fā)《星際爭霸2》的暴雪娛樂公司合作,發(fā)布了他們所謂幫助AI研究人員征服游戲的工具。
盡管面臨挑戰(zhàn),《星際爭霸2》的目標仍然十分明確,那就是消滅敵人。這是它與國際象棋、圍棋、撲克、《dota 2》以及其他所有游戲的共同之處。在游戲中,你可以贏得勝利。從算法的角度來看,所有問題都需要有個“目標函數(shù)”,即需要尋找的目標。當AlphaZero下棋時,這并不太難。AlphaZero的目標函數(shù)是將分數(shù)最大化,而撲克機器人的目標函數(shù)也很簡單,就是贏更多錢。
然而現(xiàn)實生活中的情況并不那么簡單。舉例來說,無人駕駛汽車需要一個更微妙的目標函數(shù),類似于你對精靈解釋自己愿望時的那種謹慎措辭。比如:及時將乘客送到正確的目的地,遵守一切法律,在危險和不確定的情況下適當?shù)睾饬咳祟惖纳鼉r值。多明戈斯說,研究人員如何制定目標函數(shù),這是“將一個偉大的機器學習研究者與一般的機器學習研究者區(qū)分開來的東西之一?!?/p>
想想微軟在2016年3月23日發(fā)布的Twitter聊天機器人Tay,Tay的目標是讓人們參與進來,它做到了。多明戈斯稱:“不幸的是,Tay發(fā)現(xiàn):吸引人們最大化參與的最好方法就是宣泄種族主義言論。”在上線不到一天的時間內(nèi),它就被緊急召回。
有些事情并沒有改變,今天主要的游戲機器人采用的方法依然采用了幾十年前設(shè)計的策略。多倫多大學計算機科學家戴維·杜文多(David Duvenaud)說:“這幾乎是過去技術(shù)的爆發(fā),只是增加了更多的計算?!?/p>
這些策略通常依賴于強化學習,一種不干涉的AI技術(shù)。工程師讓機器探索一個環(huán)境,并通過不斷的嘗試和錯誤來學習如何實現(xiàn)目標,而不是用詳細的指令對算法進行微觀管理。在AlphaGo和它的子代發(fā)布之前,DeepMind團隊曾在2013年取得了第一個巨大的、引人注目的成就,當時他們使用強化學習技術(shù)讓一個機器人學會掌控7款Atari 2600游戲,其中3款達到專家級別。
這一進程仍在繼續(xù)。2月5日,DeepMind發(fā)布了Impala,可以學習57款Atari游戲的AI系統(tǒng),另外還有30個由DeepMind在三維空間中構(gòu)建的任務。在這些游戲中,玩家可以在不同的環(huán)境中漫游,執(zhí)行像打開門或收獲蘑菇這樣的任務。Impala似乎可以在任務之間傳遞知識,這意味著花在玩一款游戲上的時間也能幫助它在其他方面有所提高。
但在更大范圍內(nèi)的強化學習,棋盤游戲和多人游戲允許玩家采用更具體的方法。在這里,探索可以采取自我啟發(fā)的形式,在這種情況下,一種算法可以通過不斷地與自己的副本角力,從而獲得戰(zhàn)略優(yōu)勢。
這個想法可以追溯到幾十年前。在20世紀50年代,一位名叫亞瑟·塞繆爾(Arthur Samuel)的IBM工程師創(chuàng)建了一個棋盤游戲程序,該程序是通過將字母與測試方相匹配來學習的。在20世紀90年代,來自IBM的杰拉爾德·特索羅(Gerald Tesauro)開發(fā)出西洋雙陸棋程序,使算法與自身對戰(zhàn)。這個程序最終達到了人類專家的水平,設(shè)計出了非正統(tǒng)但十分有效的策略。
在游戲迭代中,使用“自我啟發(fā)”系統(tǒng)的算法面對同樣相匹配的對手。這意味著策略的改變會導致不同的結(jié)果,從而使算法得到即時的反饋。OpenAI的研究主管伊爾亞·蘇茨克維爾(Ilya Sutskever)說:“任何時候你學到新東西,只要你發(fā)現(xiàn)了一件小事情,你的對手就會立即用它來對付你。”
蘇茨克維爾和美國連續(xù)創(chuàng)業(yè)家伊隆·馬斯克(Elon Musk)共同創(chuàng)立了非營利組織OpenAI,致力于開發(fā)和分享AI技術(shù),并將其引導到安全的應用領(lǐng)域。2017年8月,該組織發(fā)布了《Dota 2》機器人,控制角色Shadow Fiend(惡魔巫師),并在一對一的戰(zhàn)斗中擊敗了世界上最好的玩家。另一個OpenAI項目是在相撲比賽中模擬人類互相攻擊,最后它們教自己如何格擋和發(fā)動佯攻。蘇茨克維爾稱,在“自我啟發(fā)”的過程中,你永遠不能休息,必須不斷進步。
但是,“自我啟發(fā)”的舊觀念只是當今主流機器人的一個組成部分,它還需要一種方式將他們的游戲體驗轉(zhuǎn)化為更深層次的理解。國際象棋、圍棋以及像《Dota 2》這樣的視頻游戲,可能性甚至比宇宙中的原子排列方式更多。即使是在整個生命過程中,機器與自己的影子進行無數(shù)場虛擬競技戰(zhàn)斗,它也不可能碰到每個場景,并把它記錄下來,以便當它再次看到同樣的情況時,有記錄可查。
加州大學伯克利分校計算機科學家皮特·阿貝爾(Pieter Abbeel)說,要想在這種擁有無數(shù)可能性的海洋中生存,你需要泛化,并捕捉本質(zhì)。IBM的深藍電腦用其內(nèi)置的國際象棋公式做到了這一點。在有能力評估以前從未見過的棋路后,它可以采取行動和策略來增加獲勝的機會。然而,近年來,一項新技術(shù)使我們可以完全跳過這個公式。阿貝爾稱:“現(xiàn)在,突然之間,‘深網(wǎng)’就抓住了這一切?!?/p>
在過去的幾年里,深度神經(jīng)網(wǎng)絡的人氣飆升,它是由一層層的人造“神經(jīng)元”構(gòu)成的,就像煎餅一樣。當一層神經(jīng)元放電時,它們會將信號發(fā)送到下一層,以此類推。通過調(diào)整層與層之間的連接方式,這些網(wǎng)絡在將輸入轉(zhuǎn)化為相關(guān)輸出時變得非常棒,即使連接看起來顯得十分抽象。
舉例來說,給它們一個英語短語,它們可以訓練自己把它翻譯成土耳其語。給它們一個動物收容所的照片,它們就能辨認出哪些是貓?;蛘呦蛩鼈冋故疽粋€游戲板,它們可以知道自己獲勝的概率有多大。但是,通常情況下,你需要首先給這些網(wǎng)絡大量的標記示例來進行訓練和實踐。
這就是為什么“自我啟發(fā)”系統(tǒng)和深層神經(jīng)網(wǎng)絡如此契合的原因?!白晕覇l(fā)”能產(chǎn)生大量的游戲,使深層神經(jīng)網(wǎng)絡在理論上可以無限地提供它們需要自學的數(shù)據(jù)。反過來,深層神經(jīng)網(wǎng)絡提供了一種方法來內(nèi)化“自我啟發(fā)”過程中遇到的經(jīng)驗和模式。但是這其中有一個問題。對于“自我啟發(fā)”系統(tǒng)來說,要想產(chǎn)生有用的數(shù)據(jù),它們需要一個更現(xiàn)實的地方來玩。
加州大學伯克利分校的博士生切爾西·芬恩(Chelsea Finn)說:“所有這些游戲,所有這些結(jié)果,都是在你可以完美模擬世界的環(huán)境中進行的?!狈叶髟褂肁I控制機器人手臂,并從傳感器中解讀數(shù)據(jù)。其他領(lǐng)域并不那么容易被模仿。
例如,無人駕駛汽車在應對惡劣天氣或騎單車者時遇到了困難?;蛘?,它們可能無法捕捉到真實數(shù)據(jù)中出現(xiàn)的奇異可能性,比如恰好有鳥飛過擋住了汽車攝像頭。芬恩說,對于機器人手臂來說,最初的模擬提供了基礎(chǔ)物理學,讓手臂至少學會了如何學習。但是,他們沒有捕捉到接觸表面的細節(jié),這意味著像擰開瓶蓋或進行復雜外科手術(shù)的任務也需要現(xiàn)實世界的經(jīng)驗。
對于那些難以模擬的問題,“自我啟發(fā)”系統(tǒng)并不是很有用。蒙特利爾大學深度學習先驅(qū)約書亞·本吉奧(Yoshua Bengio)在電子郵件中寫道:“在真正完美的環(huán)境模型和學習環(huán)境之間存在著巨大的差異,尤其是當這個現(xiàn)實足夠復雜的時候?!钡@仍然讓AI研究人員有辦法繼續(xù)前進。
很難確定AI何時能取得游戲霸主地位。你可以選擇卡斯帕羅夫在國際象棋中的失利,或者李世石敗給虛擬對手AlphaGo。另一個流行的選擇是,2011年美國智力游戲《危險邊緣》(Jeopardy)冠軍肯·詹寧斯(Ken Jennings)輸給了IBM電腦沃森(Watson)。沃森可以解析游戲的線索,處理文字游戲。兩天的比賽還沒有結(jié)束,詹寧斯就寫道:“首先,我歡迎我們的新電腦霸主?!?/p>
沃森似乎被賦予了人類在許多現(xiàn)實問題上所使用的文書技能。它可以用英語提示,以閃電般的速度翻查相關(guān)文件,找到相關(guān)的信息片段,并找到一個最好的答案。但七年后,現(xiàn)實世界繼續(xù)對AI提出了嚴峻的挑戰(zhàn)。2017年9月份健康雜志《Stat》發(fā)布的報告顯示,作為沃森腫瘤研究計劃(Watson for Oncology)的目標,研究和設(shè)計個性化的癌癥治療方案非常困難。
當被要求從AI的角度來比較上述兩種情況時,本吉奧寫道:“《危險邊緣》中的問題更容易理解,因為它們不需要太多的常識。而理解一篇醫(yī)學文章要難得多。同樣,需要進行很多基礎(chǔ)研究?!?/p>
盡管游戲很特別,但仍然存在一些類似的現(xiàn)實問題。DeepMind的研究人員拒絕接受采訪,理由是他們的AlphaZero目前正在接受同行評審。但該研究團隊已經(jīng)表示,它的技術(shù)可能很快就能幫助生物醫(yī)學研究者,后者想要更多了解蛋白質(zhì)的折疊。
為了做到這一點,他們需要弄清楚組成蛋白質(zhì)扭結(jié)的各種氨基酸是如何折疊成小三維機器的,其功能取決于它的形狀。這在國際象棋中同樣十分棘手,化學家們很清楚地知道規(guī)則,可以計算出特定的場景,但是仍然有很多可能的配置方案,想要了解所有可能性幾乎是不可能的。
但是如果蛋白質(zhì)折疊可以被配置成游戲呢?事實上,它已經(jīng)存在了。自2008年以來,成千上萬的人類玩家嘗試過在線游戲《Foldit》,用戶可以在其折疊的蛋白質(zhì)結(jié)構(gòu)的穩(wěn)定性和可行性上得分。機器可以以類似的方式訓練自己,也許通過嘗試通用強化學習來擊敗它之前的最好成績。
蘇茨克維爾認為,強化學習和“自我啟發(fā)”也有助于訓練對話系統(tǒng)。這將使機器人能夠通過自言自語的方式進行訓練,并實現(xiàn)與人類對話??紤]到專業(yè)的AI硬件正變得越來越快、越來越普及,工程師們將會有動力以游戲的形式提出越來越多的問題。蘇茨克維爾說:“我認為,將來自我啟發(fā)和其他消耗大量計算能力的方式將變得越來越重要?!?/p>
但是,如果最終的目標是讓機器盡可能多地完成任務,即使是自學成才、通才的棋盤游戲冠軍,比如AlphaZero,也可能有辦法實現(xiàn)。麻省理工學院認知科學家喬?!ぬ啬硝U姆(Josh Tenenbaum)說:“至少在我看來,你必須看到,真正的思維活動、創(chuàng)造性的思想探索以及我們目前在AI領(lǐng)域所看到的東西之間存在著巨大的鴻溝。這種智能是存在的,但它主要發(fā)生在偉大的AI研究人員的頭腦中?!?/p>
谷歌深度學習研究員弗朗索瓦·喬萊(Francois Chollet)說:“我要保持小心,不要過高估計玩這些游戲的重要性,不管是AI還是普通工作。人類不是很擅長游戲,但要記住,非常簡單的專業(yè)工具實際上可以實現(xiàn)很多目標?!?/p>
-
AI
+關(guān)注
關(guān)注
87文章
31316瀏覽量
269659 -
人工智能
+關(guān)注
關(guān)注
1792文章
47525瀏覽量
239258
原文標題:AI可以在游戲里稱霸,但是解決現(xiàn)實問題太難了
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論