前段時(shí)間,OpenAI的游戲機(jī)器人在Dota2的比賽中贏了人類的5人小組,取得了團(tuán)隊(duì)勝利,是強(qiáng)化學(xué)習(xí)攻克的又一游戲里程碑。但是本文作者Andrey Kurenkov卻表示,強(qiáng)化學(xué)習(xí)解決的任務(wù)也許沒(méi)有看起來(lái)那么復(fù)雜,深究起來(lái)是有缺陷的。以下是論智帶來(lái)的編譯。
在這篇文章中,我們來(lái)討論討論AI核心領(lǐng)域——強(qiáng)化學(xué)習(xí)的缺陷。我們先從一個(gè)有趣的比喻開(kāi)始,之后會(huì)關(guān)注一個(gè)重要因素——先驗(yàn)知識(shí),接著我們會(huì)對(duì)深度學(xué)習(xí)進(jìn)行介紹,最后進(jìn)行總結(jié)。
首先我們將對(duì)強(qiáng)化學(xué)習(xí)是什么進(jìn)行介紹,以及它為什么有基礎(chǔ)性缺陷(或者至少某個(gè)版本,我們稱為“純粹的強(qiáng)化學(xué)習(xí)”)。如果你是AI專業(yè)人才,可以跳過(guò)這部分簡(jiǎn)介。
棋盤(pán)游戲
假設(shè)你的一位朋友給你介紹了一款你從未聽(tīng)說(shuō)過(guò)的游戲,并且你之前從來(lái)沒(méi)玩過(guò)任何游戲。你朋友告訴你怎樣算有效的移動(dòng),但是卻不告訴你這樣做的意義是什么,也不告訴你游戲怎么計(jì)分。在這種情況下你開(kāi)始參與游戲,沒(méi)有任何問(wèn)題,也不會(huì)有任何解釋。結(jié)果就是不斷地輸……慢慢地你發(fā)現(xiàn)了輸局的某些規(guī)律,雖然之后還是會(huì)輸,但起碼能堅(jiān)持玩一段時(shí)間了。經(jīng)過(guò)幾周后,甚至幾千盤(pán)對(duì)抗后,你甚至能贏下一局。
聽(tīng)起來(lái)很傻,為什么不在一開(kāi)始就問(wèn)游戲的目標(biāo)以及應(yīng)該怎樣獲勝呢?總之,上面的場(chǎng)景是當(dāng)下大多數(shù)強(qiáng)化學(xué)習(xí)方法的做法。
強(qiáng)化學(xué)習(xí)(RL)是AI的一個(gè)基礎(chǔ)子領(lǐng)域,在強(qiáng)化學(xué)習(xí)的框架中,智能體(agent)在與環(huán)境的交互中學(xué)習(xí)應(yīng)該在特定狀態(tài)下做出哪些動(dòng)作從而使長(zhǎng)期獎(jiǎng)勵(lì)最大化。這也就是說(shuō)在上述棋盤(pán)游戲中,玩家在棋盤(pán)中學(xué)習(xí)怎么走能讓最后的分?jǐn)?shù)最高。
在強(qiáng)化學(xué)習(xí)的典型模型中,智能體最初只知道它可以做哪些動(dòng)作,除此之外對(duì)環(huán)境一無(wú)所知,人們希望它能在與環(huán)境的交互中,以及在收到獎(jiǎng)勵(lì)后學(xué)會(huì)該做什么動(dòng)作。缺少先驗(yàn)知識(shí)的意思是,智能體從零開(kāi)始學(xué)習(xí),我們將這種從零開(kāi)始的方法稱為“純粹的強(qiáng)化學(xué)習(xí)”。純強(qiáng)化學(xué)習(xí)可以用到西洋棋或者圍棋中,也可以應(yīng)用到機(jī)器人等其他領(lǐng)域。
最近很多強(qiáng)化學(xué)習(xí)受到了深度學(xué)習(xí)的啟發(fā),但基礎(chǔ)模型沒(méi)怎么改變。畢竟這種從零開(kāi)始學(xué)習(xí)的方法是強(qiáng)化學(xué)習(xí)的開(kāi)端,并且在大多數(shù)基礎(chǔ)等式中都有表現(xiàn)。
所以這里有個(gè)基本問(wèn)題:如果純強(qiáng)化學(xué)習(xí)的過(guò)程特別不合常理,那么在此基礎(chǔ)上設(shè)計(jì)的AI模型能有多可靠?如果我們認(rèn)為讓人類通過(guò)純強(qiáng)化學(xué)習(xí)全新的棋盤(pán)游戲很荒唐,那么這個(gè)框架對(duì)智能體來(lái)說(shuō)也是有缺陷的呢??jī)H僅通過(guò)獎(jiǎng)勵(lì)信號(hào)而不借助先驗(yàn)知識(shí)和高水平指導(dǎo),就開(kāi)始學(xué)習(xí)一項(xiàng)新技能真的有意義嗎?
先驗(yàn)知識(shí)和高水平指導(dǎo)在經(jīng)典強(qiáng)化學(xué)習(xí)中是不存在的,隱式或顯式地改變這些方法可能對(duì)所有用于訓(xùn)練強(qiáng)化學(xué)習(xí)的算法有很大影響,所以這是個(gè)非常大的問(wèn)題,要回答它需要兩部分:
第一部分即本文,我們將從展示純強(qiáng)化學(xué)習(xí)的主要成果開(kāi)始,這些成果可能不會(huì)像你想象得那樣重要。接著,我們會(huì)展示一些更復(fù)雜的成果,它們?cè)诩儚?qiáng)化學(xué)習(xí)下可能無(wú)法完成,因?yàn)橹悄荏w會(huì)受到多種限制。
在第二部分中,我們將瀏覽各種能解決上述限制的方法(主要是元學(xué)習(xí)和zero-shot學(xué)習(xí))。最后,我們會(huì)總結(jié)基于這種方法的令人激動(dòng)的成果并進(jìn)行總結(jié)。
純強(qiáng)化學(xué)習(xí)真的有道理嗎?
看到這個(gè)問(wèn)題,大多數(shù)人可能會(huì)說(shuō)
當(dāng)然了,AI智能體不是人類,不會(huì)像我們一樣學(xué)習(xí),純強(qiáng)化學(xué)習(xí)已經(jīng)能解決很多復(fù)雜任務(wù)了。
但是我不同意。根據(jù)定義,AI研究指的是讓機(jī)器做只有動(dòng)物和人類目前能做的事,因此,將機(jī)器和人類智慧相比是不恰當(dāng)?shù)?。至于純?qiáng)化學(xué)習(xí)已經(jīng)解決的問(wèn)題,人們常常忽視了重要的一點(diǎn):這些問(wèn)題通??雌饋?lái)并不那么復(fù)雜。
這聽(tīng)起來(lái)可能很驚訝,因?yàn)楹芏啻笮脱芯繖C(jī)構(gòu)都努力地用強(qiáng)化學(xué)習(xí)做出各種成果。這些成果確實(shí)很棒,但是我仍然認(rèn)為這些任務(wù)并不像他們看起來(lái)那么復(fù)雜。在深入解釋之前,我列舉了一些成就,并且指出它們?yōu)槭裁粗档萌藗冄芯浚?/p>
DQN:這項(xiàng)由DeepMind推出的項(xiàng)目在五年前引起了人們對(duì)強(qiáng)化學(xué)習(xí)極大的興趣,該項(xiàng)目展示了將深度學(xué)習(xí)和純強(qiáng)化學(xué)習(xí)結(jié)合后,可以解決比此前更復(fù)雜的問(wèn)題。雖然DQN只包含少量的創(chuàng)新,但對(duì)于讓深度強(qiáng)化學(xué)習(xí)變得更實(shí)用是很重要的。
AlphaGo Zero和AlphaZero:這種純強(qiáng)化學(xué)習(xí)模型已經(jīng)超越了人類最佳水平。最初的AlphaGo是監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合的產(chǎn)物,而AlphaGo Zero是完全通過(guò)強(qiáng)化學(xué)習(xí)和自我對(duì)抗實(shí)現(xiàn)的。因此,它是最接近純強(qiáng)化學(xué)習(xí)方法的產(chǎn)物,雖然它仍然有提供游戲規(guī)則的模型。
在與人類對(duì)戰(zhàn)獲勝后,AlphaGo Zero被很多人看作是一種游戲顛覆者。接著一種更通用的版本——AlphaZero出現(xiàn)了,它不僅能玩圍棋,還能下國(guó)際象棋和日本將棋,這是第一次有一種算法可以完成兩種棋類比賽。所以AlphaGo Zero和AlphaZero是非常了不起的成就。
OpenAI可以打Dota的機(jī)器人:深度強(qiáng)化學(xué)習(xí)能夠在Dota2中多人模式中擊敗人類了。去年,OpenAI的機(jī)器人在1v1對(duì)抗中擊敗了人類就已經(jīng)令人印象深刻了,這次是更加困難的5v5。它同樣不需要先驗(yàn)知識(shí),并且也是通過(guò)自我對(duì)抗訓(xùn)練的。
這種在復(fù)雜游戲中的團(tuán)隊(duì)模式中獲勝的成績(jī)比此前的雅達(dá)利游戲和圍棋對(duì)抗更驚艷。另外,這一模型還沒(méi)有進(jìn)行主要的算法更新,完全依靠大量計(jì)算和已有的純強(qiáng)化學(xué)習(xí)算法和深度學(xué)習(xí)進(jìn)行的。
所以,純強(qiáng)化學(xué)習(xí)已經(jīng)做出了很多成績(jī)。但是就像我之前說(shuō)的,他們有些地方可能被高估了。
首先從DQN開(kāi)始。
它可以超越人類水平玩很多雅達(dá)利游戲,但也并不是全部。一般來(lái)說(shuō),它適合玩靈活度較高的、不需要推理和記憶的游戲。即使五年之后,也不會(huì)有純強(qiáng)化學(xué)習(xí)攻下推理和記憶游戲。相反,能完成這些游戲的都經(jīng)過(guò)了指導(dǎo)和示范。
即使在DQN表現(xiàn)良好的游戲中,它也需要非常大量的時(shí)間和經(jīng)驗(yàn)去學(xué)習(xí)。
同樣的限制在AlphaGo Zero和AlphaZero上都有體現(xiàn)。圍棋的很多性質(zhì)都能讓學(xué)習(xí)任務(wù)變得簡(jiǎn)單,例如它是必然的、完全可觀測(cè)的、單一智能體等等。但唯獨(dú)一件事讓圍棋變得麻煩:它的分支因數(shù)太多了。
所以,圍棋可能是變數(shù)最多的簡(jiǎn)易游戲。有人說(shuō)強(qiáng)人工智能(AGI)因?yàn)锳lphaGo的成功即將到來(lái),這種說(shuō)法不攻自破。多數(shù)研究者認(rèn)為,真實(shí)的世界比一個(gè)簡(jiǎn)單游戲復(fù)雜得多,盡管AlphaGo的成功令人贊賞,但是它和它所有的變體從根本上和“深藍(lán)”是相似的:它只是一套昂貴的系統(tǒng)罷了。
說(shuō)到Dota,它的確比圍棋更復(fù)雜,并且是非靜止的、多人的游戲。但是它仍然是可以用靈活的API操控的游戲,并且成本巨大。
所以,盡管這些成就很偉大,我們?nèi)孕枰獙?duì)它們的本質(zhì)進(jìn)行了解,同時(shí)要思考,純強(qiáng)化學(xué)習(xí)難道不能成為獲取這些成就的最佳方法嗎?
純強(qiáng)化學(xué)習(xí)的基礎(chǔ)缺陷——從零開(kāi)始
有沒(méi)有更好的方法讓智能體下圍棋、玩dota呢?AlphaGo Zero的名字來(lái)源正是暗示它是從零開(kāi)始學(xué)習(xí)的模型,但是讓我們回到文章開(kāi)頭說(shuō)的那個(gè)小故事,如果讓你從零開(kāi)始學(xué)習(xí)下圍棋,不給任何解釋,聽(tīng)起來(lái)很荒謬對(duì)嗎?所以為什么要把這定為AI的目標(biāo)呢?
事實(shí)上,如果你正在學(xué)的那個(gè)棋盤(pán)游戲是圍棋,你會(huì)怎么開(kāi)始?可能你會(huì)先讀一遍規(guī)則,學(xué)一些高級(jí)策略,回憶一下之前的對(duì)戰(zhàn),總結(jié)經(jīng)驗(yàn)……確實(shí),讓AlphaGo Zero和Dota機(jī)器人從零開(kāi)始學(xué)習(xí)是有點(diǎn)不公平的,它們只依靠更多數(shù)量的游戲經(jīng)驗(yàn)和運(yùn)用比人類大得多的計(jì)算力。
AlphaGo Zero技能增長(zhǎng)曲線,注意,它花了一整天的時(shí)間和好幾千局游戲才達(dá)到人類最低水平
實(shí)際上,純強(qiáng)化學(xué)習(xí)技術(shù)可以在更“窄”的任務(wù)中應(yīng)用,例如連續(xù)控制或是像dota和星際爭(zhēng)霸這樣的復(fù)雜游戲。然而隨著深度學(xué)習(xí)的成功,AI研究者正嘗試解決更復(fù)雜的問(wèn)題例如汽車(chē)駕駛和對(duì)話。
所以,純強(qiáng)化學(xué)習(xí),或者從零開(kāi)始的學(xué)習(xí)方法,是解決復(fù)雜任務(wù)的正確方法嗎?
是否應(yīng)該堅(jiān)持純強(qiáng)化學(xué)習(xí)?
答案可能如下:
當(dāng)然,純強(qiáng)化學(xué)習(xí)是除了圍棋和dota之外的其他問(wèn)題的正確解決方法。雖然在棋盤(pán)類游戲中有點(diǎn)講不通,但是在通用事物的學(xué)習(xí)上還是可以說(shuō)得通的。另外,就算不受人類的啟發(fā),智能體在沒(méi)有先驗(yàn)知識(shí)的條件下也能表現(xiàn)得更好。
讓我們先說(shuō)最后一點(diǎn),不考慮人類的啟發(fā),從零開(kāi)始的典型做法就是另一種方法會(huì)限制模型的精確度,將人類的想法編碼到模型上是很困難的,甚至?xí)档托阅?。這種觀點(diǎn)在深度學(xué)習(xí)的成功之后成為了主流,即用百萬(wàn)級(jí)參數(shù)學(xué)習(xí)端到端模型,并在大量數(shù)據(jù)上訓(xùn)練,同時(shí)有一些內(nèi)在先驗(yàn)知識(shí)。
但問(wèn)題時(shí),加入先驗(yàn)知識(shí)和知道并不會(huì)將人類知覺(jué)中含有的有限結(jié)構(gòu)加入到智能體上。換句話說(shuō),我們可以教會(huì)智能體或模型關(guān)于怎樣執(zhí)行任務(wù),而不會(huì)添加對(duì)其能力有限制的因素。
對(duì)大多數(shù)AI問(wèn)題來(lái)說(shuō),不從零開(kāi)始就不會(huì)限制智能體學(xué)習(xí)的方式。目前還沒(méi)有確切的原因解釋,為什么AlphaGo Zero如此執(zhí)著于“從零開(kāi)始”,事實(shí)上它可以借助人類知識(shí)表現(xiàn)得更好。
那么純強(qiáng)化學(xué)習(xí)是最佳解決辦法嗎?這個(gè)答案曾經(jīng)很簡(jiǎn)單,在無(wú)梯度優(yōu)化領(lǐng)域,純強(qiáng)化學(xué)習(xí)是你可以選擇的最可靠的方法。但是最近的一些論文質(zhì)疑了這一說(shuō)法,并認(rèn)為更簡(jiǎn)單的基于演化策略的方法能達(dá)到相似效果。具體論文:
Simple random search provides a competitive approach to reinforcement learning
Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning
Evolution Strategies as a Scalable Alternative to Reinforcement Learning
Towards Generalization and Simplicity in Continuous Control
Ben Recht,是理論和實(shí)際優(yōu)化算法的頂尖研究者,也是Simple random search provides a competitive approach to reinforcement learning一文的作者之一,他準(zhǔn)確地總結(jié)了以上觀點(diǎn):
我們看到,隨機(jī)搜索在簡(jiǎn)單線性問(wèn)題上表現(xiàn)良好,并且比一些強(qiáng)化方法,例如策略梯度表現(xiàn)得更好。但是當(dāng)我們提出更難的問(wèn)題時(shí),隨機(jī)搜索崩潰了嗎?不好意思,沒(méi)有。
所以,將純強(qiáng)化學(xué)習(xí)用來(lái)從零開(kāi)始學(xué)習(xí)不一定是正確的方法。但是回到人類從零開(kāi)始學(xué)習(xí)的問(wèn)題,人們會(huì)在具備一些技巧,卻沒(méi)有指示信息的情況下開(kāi)始學(xué)習(xí)嗎?不會(huì)的。
也許在一些通用基礎(chǔ)問(wèn)題上,純強(qiáng)化學(xué)習(xí)可能有用,因?yàn)檫@些問(wèn)題很廣泛。但是在AI中,很大部分的問(wèn)題是否適合強(qiáng)化學(xué)習(xí)還并不清楚。事實(shí)上,之所以選擇從零開(kāi)始,是因?yàn)槟壳暗腁I和強(qiáng)化學(xué)習(xí)都有著很多缺陷:
目前的AI非常需要數(shù)據(jù)。很多項(xiàng)目都需要大量的數(shù)據(jù)進(jìn)行計(jì)算,而從零學(xué)習(xí)只需要高效的采樣方法即可。
目前的AI是不透明的。也就是“黑箱”問(wèn)題,很多時(shí)候我們只能從較高層次了解AI算法的學(xué)習(xí)和工作流程。
目前的AI應(yīng)用范圍有限。很多模型一次只能執(zhí)行一種任務(wù),而且很容易崩潰。
現(xiàn)有AI很脆弱。只有在大量數(shù)據(jù)訓(xùn)練的基礎(chǔ)上,模型才可能對(duì)從未見(jiàn)過(guò)的輸入生成較好結(jié)果。即使如此也經(jīng)常崩潰。
-
AI
+關(guān)注
關(guān)注
87文章
30898瀏覽量
269130 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
266瀏覽量
11256
原文標(biāo)題:斯坦福學(xué)者冷思考:強(qiáng)化學(xué)習(xí)存在基礎(chǔ)性缺陷
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論